強化學習可說是能自我演進的機器學習，能帶領我們達到真正的人工智慧。本書好讀又容易上手，運用了大量Python範例來從頭解釋所有東西。

本書從強化學習的簡介開始，接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念，例如Markov決策過程、蒙地卡羅法與動態規劃，包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法，例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。

本書精彩內容：
●理解強化學習方法、演算法與重要元素的相關基礎
●使用OpenAI Gym與TensorFlow來訓練代理
●理解Markov決策過程、Bellman最佳化與TD學習
●運用多種演算法來解決多臂式吃角子老虎問題
●熟悉各種深度學習演算法，如RNN、LSTM、CNN與其應用
●使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲
●使用DDPG來教導代理來玩月球冒險遊戲
●使用競爭DQN來訓練代理來玩賽車遊戲

產品目錄

第一章｜認識強化學習
介紹何謂強化學習以及其運作原理。介紹強化學習的各種元素，如代理、環境、策略與模型，並帶領讀者認識用於強化學習的各種環境、平台與函式庫，以及強化學習的一些應用。

第二章｜認識OpenAI與TensorFlow
建置使用強化學習的電腦環境，包括Anaconda、Docker、OpenAI Gym、Universe與TensorFlow的安裝設定，並說明如何在OpenAI Gym中來模擬代理，以及如何建置一個會玩電玩遊戲的機器人程式。另外也會解說TensorFlow的基礎觀念以及如何使用TensorBoard來進行視覺化操作。

第三章｜Markov決策過程與動態規劃
從介紹何謂Markov鍊與Markov流程開始，說明如何使用Markov決策流程來對強化學習問題來建模。接著是一些重要的基本概念，例如價值函數、Q函數與Bellman方程式。然後介紹動態規劃以及如何運用價值迭代與策略迭代來解決凍湖問題。

第四章｜使用Monte Carlo方法來玩遊戲
介紹了Monte Carlo法與不同類型的 Monte Carlo預測法，如首次拜訪MC與每次拜訪MC，並說明如何使用Monte Carlo法來玩二十一點這項撲克牌遊戲。最後會介紹現時與離線這兩種不同的Monte Carlo控制方法。

第五章｜時間差分學習
介紹時間差分（TD）學習、TD預測與TD的即時/離線控制法，如Q學習與SARSA。並說明如何使用Q學習與SARSA來解決計程車載客問題。

第六章｜多臂式吃角子老虎機問題
要討論的是強化學習的經典問題：多臂式吃角子老虎機（MAB）問題，也稱為k臂式吃角子老虎機（MAB）問題。介紹如何使用各種探索策略來解決這個問題，例如epsilon-貪婪、softmax探索、UCB與湯普森取樣。本章後半也會介紹如何運用MAB來對使用者顯示正確的廣告橫幅。

第七章｜深度學習的基礎概念
介紹深度學習的重要觀念。首先，說明何謂神經網路，接著是不同類型的神經網路，如RNN、LSTM與CNN等。本章將實作如何自動產生歌詞與分類時尚產品。

第八章｜使用深度Q網路來玩Atari遊戲
介紹了一套最常用的深度強化學習演算法：深度Q網路（DQN）。接著介紹DQN的各個元件，並說明如何運用DQN來建置代理來玩Atari遊戲。最後介紹一些新型的DQN架構，如雙層DQN與競爭DQN。

第九章｜使用深度循環Q網路來玩毀滅戰士
介紹深度循環Q網路（DRQN），並說明它與DQN的差異。本章會運用DRQN來建置代理來玩毀滅戰士遊戲。同時介紹深度專注循環Q網路，它在DRQN架構中加入了專注機制。

第十章｜非同步優勢動作評價網路
介紹了非同步優勢動作評價網路（A3C）的運作原理。我們將帶領你深入了解A3C的架構並學會如何用它來建置會爬山的代理。

第十一章｜策略梯度與最佳化
說明策略梯度如何在不需要Q函數的前提下，幫助我們找到正確的策略。同時還會介紹深度確定性策略梯度法，以及最新的策略最佳化方法，如信賴域策略最佳化與近端策略最佳化。

第十二章使用DQN來玩賽車遊戲
本章將帶領你運用競爭DQN來建置代理，讓它學會玩賽車遊戲。

第十三章近期發展與下一步
介紹強化學習領域中的各種最新發展，例如想像增強代理、從人類偏好來學習、由示範來進行的深度Q學習以及事後經驗回放等等，然後談到了不同的強化學習方法，如層次強化學習與逆向強化學習。

作者介紹

■作者簡介

Sudharsan Ravichandiran
Sudharsan Ravichandiran是位資料科學家、研究者、人工智慧狂熱者與YouTuber（請搜尋Sudharsan reinforcement learning），在Anna大學取得資訊科技學士學位，研究領域是深度學習與強化學習的實務性實作，包含字元語言處理與電腦視覺。

CAVEDU教育團隊曾吉弘

規格

誠品貨碼 / 2681762563002

ISBN13 / 9789865021412

ISBN10 / 9865021412

EAN貨碼 / 9789865021412

頁數 / 328

注音版 / 否

裝訂 / P:平裝

語言 / 1:中文/繁體

尺寸 / 23X17CM

級別 / N:無

重量(g) / 904.8g

退貨說明

退貨須知：

依照消費者保護法的規定，您享有商品貨到次日起七天猶豫期(含例假日)的權益(請注意！猶豫期非試用期)，辦理退貨之商品必須是全新狀態(不得有刮傷、破損、受潮)且需完整(包含全部商品、配件、原廠內外包裝、贈品及所有附隨文件或資料的完整性等)。
請您以送貨廠商使用之包裝紙箱將退貨商品包裝妥當，若原紙箱已遺失，請另使用其他紙箱包覆於商品原廠包裝之外，切勿直接於原廠包裝上黏貼紙張或書寫文字。若原廠包裝損毀將可能被認定為已逾越檢查商品之必要程度，本公司得依毀損程度扣除回復原狀必要費用(整新費)後退費；請您先確認商品正確、外觀可接受，再行拆封，以免影響您的權利；若為產品瑕疵，本公司接受退貨。

依「通訊交易解除權合理例外情事適用準則」，下列商品不適用七日猶豫期，除產品本身有瑕疵外，不接受退貨：

易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮蔬果、乳製品、冷凍冷藏食材、蛋糕)
依消費者要求所為之客製化給付。(如:客製印章、鋼筆刻字)
報紙、期刊或雜誌。
經消費者拆封之影音商品或電腦軟體。
非以有形媒介提供之數位內容或一經提供即為完成之線上服務，經消費者事先同意始提供。(如:電子書)
已拆封之個人衛生用品。(如:內衣褲、襪類、褲襪、刮鬍刀、除毛刀等貼身用品)
國際航空客運服務。

若您退貨時有下列情形，可能被認定已逾越檢查商品之必要程度而須負擔為回復原狀必要費用(整新費)，或影響您的退貨權利，請您在拆封前決定是否要退貨：

以數位或電磁紀錄形式儲存或著作權相關之商品(包含但不限於CD、VCD、DVD、電腦軟體等) 包裝已拆封者(除運送用之包裝以外)。
耗材(包含但不限於墨水匣、碳粉匣、紙張、筆類墨水、清潔劑補充包等)之商品包裝已拆封者(除運送用之包裝以外)。
衣飾鞋類/寢具/織品(包含但不限於衣褲、鞋子、襪子、泳裝、床單、被套、填充玩具)或之商品缺件(含購買商品、附件、內外包裝、贈品等)或經剪標或下水或商品有不可回復之髒污或磨損痕跡。
食品、美容/保養用品、內衣褲等消耗性或個人衛生用品、商品銷售頁面上特別載明之商品已拆封者(除運送用之包裝外一切包裝、包括但不限於瓶蓋、封口、封膜等接觸商品內容之包裝部分)或已非全新狀態(外觀有刮傷、破損、受潮等)與包裝不完整(缺少商品、附件、原廠外盒、保護袋、配件紙箱、保麗龍、隨貨文件、贈品等)。
家電、3C、畫作、電子閱讀器等商品，除商品本身有瑕疵外，退回之商品已拆封(除運送用之包裝外一切包裝、包括但不限於封膜等接觸商品內容之包裝部分、移除封條、拆除吊牌、拆除貼膠或標籤等情形)或已非全新狀態(外觀有刮傷、破損、受潮等)與包裝不完整(缺少商品、附件、原廠外盒、保護袋、配件紙箱、保麗龍、隨貨文件、贈品等)。
退貨程序請參閱【客服專區→常見問題→誠品線上退貨退款】之說明。

付款/配送