第1章 強化學習框架
1-1 強化學習主要元素與馬可夫決策過程
1-2 範例1.1
1-3 策略和價值函數
1-4 範例1.2
1-5 最佳策略和最佳價值函數
重點回顧
章末練習
第2章 動態規劃
2-1 策略評估
2-2 策略改進
2-3 範例2.1與程式碼
2-4 策略疊代和價值疊代
2-5 動態規劃的優缺點與異步更新
2-6 範例2.2與程式碼
2-7 廣義策略疊代
重點回顧
章末練習
第3章 蒙地卡羅法
3-1 蒙地卡羅預測
3-2 同策略與異策略法
3-3 同策略蒙地卡羅控制
3-4 範例3.1與程式碼
3-5 異策略與重要性抽樣
3-6 異策略蒙地卡羅預測
3-7 異策略蒙地卡羅控制
重點回顧
章末練習
第4章 1步時間差分法
4-1 時間差分法
4-2 Sarsa和Q學習
4-3 範例4.1與程式碼
4-4 期望Sarsa
重點回顧
章末練習
第5章
5-1 n步時間差分預測
5-2 n步Sarsa與n步期望Sarsa
5-3 範例5.1與程式碼
5-4 異策略n步時間差分控制
重點回顧
章末練習
第6章 近似解法
6-1 函數近似與隨機梯度下降
6-2 同策略梯度與半梯度預測
6-3 同策略回合式半梯度控制
6-4 範例6.1與程式碼
6-5 異策略深度Q網路
6-6 同策略差分半梯度控制
重點回顧
章末練習
第7章 規劃與學習
7-1 規劃
7-2 範例7.1與程式碼
7-3 優先掃掠
7-4 內在動機
7-5 範例7.2與程式碼
重點回顧
章末練習
第8章 資格跡與學習
8-1 資格跡和λ報酬
8-2 半梯度TD(λ)和回合式半梯度Sarsa(λ)
8-3 資格跡和表格解法
8-4 範例8.1與程式碼
重點回顧
章末練習
第9章 策略梯度法
9-1 策略梯度與策略參數更新
9-2 簡樸策略梯度演算法
9-3 增強演算法
9-4 行動者評論家演算法
9-5 範例9.1與程式碼
重點回顧
章末練習
參考文獻
名詞索引