maxim lapan

的圖書

最新圖書評論 -

目前有 1 則評論

在編輯本書時，倒也「整理」出了...

轉載自博客來

2019/11/09

在編輯本書時，倒也「整理」出了一點樂趣和心得。特別針對幾章的特色（及主觀認定的優缺點），跟各位讀者分享：＊前言＊作者簡述了他為何想寫這本書的動機，他認為，許多學術研究的資訊都太過抽象了，而網路上的文章又受限於篇幅，往往不夠深入，他希望這本書能夠取得這兩者之間的平衡，為...

$ 345 ～ 621

動手做深度強化學習
作者：Maxim Lapan ／譯者：劉立民　
出版社：博碩文化股份有限公司
出版日期：2019-11-11
語言：繁體書

1 則評論

共 10 筆 → 查價格、看圖書介紹

圖書介紹 - 資料來源：TAAZE 讀冊生活

圖書名稱：動手做深度強化學習

實作現代強化學習方法：深度Q網路、值迭代、策略梯度、TRPO、AlphaGo Zero…

強化學習（RL）的最新發展，結合使用深度學習（DL），在訓練代理人「像人類一樣地」解決複雜問題這方面，取得了前所未有的進步。Google團隊利用演算法來玩知名的Atari街機遊戲，並擊敗了它們，這可以說是讓RL領域發光發熱的重要推手，而世界各地的研究人員正馬不停蹄地研發各種新的想法。

《動手做深度強化學習》綜合性地介紹了最新的DL工具與它們的限制。讀者將評估包括交叉熵和策略梯度等方法，再把它們應用於真實的環境之中。本書使用Atari虛擬遊戲和一般家庭常玩的Connect4遊戲作為範例。除了介紹RL的基礎知識之外，作者亦詳述如何製作智慧型學習代理人等專業知識，讓讀者在面對一系列艱鉅的真實世界挑戰時，能游刃有餘。本書也會說明如何在網格世界（grid world）環境中實作Q學習、如何讓代理人學會買賣和交易股票，並學習聊天機器人是如何使用自然語言模型與人類對話的。

在這本書中，你將學到：
・了解結合了RL的DL內容，並實作複雜的DL模型
・學習RL的基礎：馬可夫決策過程
・評估RL方法，包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG…等等
・了解如何在各種環境中處理離散行動空間和連續行動空間
・使用值迭代法來擊敗Atari街機遊戲
・建立屬於自己的OpenAI Gym環境，來訓練股票交易代理人
・使用AlphaGo Zero演算法，教你的代理人玩Connect4
・探索最新的深度RL研究主題，包括AI驅動的聊天機器人等等

下載範例程式檔案：
本書的程式碼是由 GitHub 託管，可以在如下網址找到：https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On。

下載本書的彩色圖片：
我們還提供您一個PDF檔案，其中包含本書使用的彩色螢幕截圖／彩色圖表，可以在此下載：https://static.packt-cdn.com/downloads/DeepReinforcementLearningHandsOn_ColorImages.pdf。

作者簡介：

Maxim Lapan是一位深度學習的愛好者，也是一位獨立研究人員。他有15 年的工作經驗，身分是「軟體開發人員」與「系統架構師」，參與的專案從低階的Linux 核心驅動程式開發，到在數千台伺服器上執行的「分散式應用程式」的「設計」與「性能優化」。憑藉著在大數據、機器學習以及大型平行分散式HPC 和非HPC 系統方面的豐富工作經驗，他能用「簡單的句子」與「生動的範例」來解釋複雜事物的關鍵重點。目前他最感興趣的領域是深度學習的實務應用，例如：「深度自然語言處理」和「深度強化學習」。

Maxim 和他的家人住在莫斯科，俄羅斯聯邦，他在以色列新創公司擔任資深NLP 開發人員。

前言
第1章：什麼是強化學習？
第2章： OpenAI Gym
第3章：使用PyTorch來做深度學習
第4章：交叉熵法
第5章：表格學習與貝爾曼方程式
第6章：深度Q網路
第7章：DQN擴充
第8章：以強化學習法來做股票交易
第9章：策略梯度－另一個選項
第10章：行動－評論者方法
第11章：非同步優勢行動－評論者
第12章：以強化學習法訓練聊天機器人
第13章：Web導航
第14章：連續行動空間
第15章：信賴域策略－TRPO、PPO與ACKTR
第16章：強化學習中的黑箱優化
第17章：超越無模型方法－想像
第18章：AlphaGo Zero

顯示全部內容

回上面

圖書評論 - 評分：

在編輯本書時，倒也「整理」出了...

轉載自博客來

2019/11/09

在編輯本書時，倒也「整理」出了一點樂趣和心得。特別針對幾章的特色（及主觀認定的優缺點），跟各位讀者分享：

＊前言＊
作者簡述了他為何想寫這本書的動機，他認為，許多學術研究的資訊都太過抽象了，而網路上的文章又受限於篇幅，往往不夠深入，他希望這本書能夠取得這兩者之間的平衡，為讀者提供實用的資訊（而非只是虛無飄渺的理論）。
＊第1章＊
名副其實，本章就是在解釋何謂強化學習，其定義、形式、組成…什麼是代理人（Agent）？什麼是獎勵（Reward）？作者利用許多有趣的比喻（如page007訓練小狗和page014~018呆伯特的工作日XD），讓抽象的概念變得淺顯易懂。
＊第2章～第7章＊
滿滿的數學和程式碼。雖然作者說「統計和機率」的理解並非絕對必要，但我覺得還是要有點數學底子才能理解這幾章…
＊第8章＊
這一章最短，又跟時下流行的股票有關，但本章不會教你發大財，本章是給你一個概念，原來「代理人」連買賣股票也能玩！
＊第9章～第11章＊
又回到滿滿的數學和程式碼，喜歡實作的讀者，這本書有滿滿的程式碼，千萬不要錯過嘿！（再次提醒，GitHub和博碩官網都可以找到完整程式碼喔。）
＊第12章～第18章＊
這七章就有趣了。就我主觀的認定，這七個章節才是本書的精髓。如果讀者已對深度學習、機器學習和強化學習等有一定程度的理解（和實作經驗），那麼或許可以直接閱讀這七個章節，挑戰一下。其中我個人覺得最有趣的大概就是在「電影對話數據集」上訓練的聊天機器人和兩個Roboschool環境。
＊索引＊
是的，本書有索引，所以可以按圖索驥找到想讀的內容。這是我第一次做索引。因為人工核對頁碼非常辛苦，所以我要特別提一下（我最自豪的）這幾頁。

本書適合懂Python、對深度學習和機器學習有一定理解，並想更深入了解強化學習的讀者。市面上強化學習的書籍不算多，編輯我不敢保證讓每一位讀者都100%滿意，但以譯者和編輯投入的程度，我能問心無愧，本書肯定物超所值。

回上面

贊助商廣告