譯者序
前言
符號表
第1章 導論
1.1 為什麼是分佈強化學習
1.2 示例:Kuhn撲克
1.3 分佈強化學習有何不同
1.4 本書的讀者對象和結構
1.5 參考文獻備註
第2章 回報的分佈
2.1 隨機變量及其概率分佈
2.2 馬爾可夫決策過程
2.3 彈球模型
2.4 回報
2.5 貝爾曼方程
2.6 隨機軌跡的性質
2.7 隨機變量貝爾曼方程
2.8 從隨機變量到概率分佈
2.9 回報分佈的替代概念
2.10 技術備註
2.11 參考文獻備註
2.12 練習
第3章 學習回報分佈
3.1 蒙特卡羅方法
3.2 增量學習
3.3 時序差分學習
3.4 從值到概率
3.5 投影過程
3.6 分類時序差分學習
3.7 學習控制
3.8 進一步的考慮
3.9 技術備註
3.10 參考文獻備註
3.11 練習
第4章 算子和度量指標
4.1 貝爾曼算子
4.2 收縮映射
4.3 分佈貝爾曼算子
4.4 回報函數的Wasserstein距離
4.5 lp概率度量和Cramer距離
4.6 收縮性的充分條件
4.7 域問題
4.8 回報函數的弱收斂性
4.9 隨機變量貝爾曼算子
4.10 技術備註
4.11 參考文獻備註
4.12 練習
第5章 分佈動態規劃
5.1 計算模型
5.2 回報-分佈函數的表示
5.3 經驗表示
5.4 正態表示
5.5 固定大小的經驗表示
5.6 投影步驟
5.7 分佈動態規劃
5.8 擴散引起的誤差
5.9 分佈動態規劃的收斂性
5.10 分佈近似的質量
5.11 設計分佈動態規劃算法
5.12 技術備註
5.13 參考文獻備註
5.14 練習
第6章 增量算法
6.1 計算與統計估計
6.2 從算子到增量算法
6.3 分類時序差分學習
6.4 分位數時序差分學習
6.5 理論分析的算法模板
6.6 合理的步長
6.7 收斂性分析概述
6.8 增量算法的收斂性
6.9 時序差分學習的收斂性
6.10 分類時序差分學習的收斂性
6.11 技術備註
6.12 參考文獻備註
6.13 練習
第7章 控制
7.1 風險中性控制
7.2 價值迭代和Q-學習
7.3 分佈值迭代
7.4 分佈最優算子的動力學
7.5 存在多個最優策略時的動態分析
7.6 風險和風險敏感控制
7.7 風險敏感控制面臨的挑戰
7.8 條件風險價值
7.9 技術備註
7.10 參考文獻備註
7.11 練習
第8章 統計泛函
8.1 統計泛函概述
8.2 矩
8.3 貝爾曼封閉性
8.4 統計泛函動態規劃
8.5 與分佈動態規劃的關係
8.6 期望分位數動態規劃
8.7 統計泛函的無限集合
8.8 矩時序差分學習
8.9 技術備註
8.10 參考文獻備註
8.11 練習
第9章 線性函數近似
9.1 函數近似和混疊
9.2 最優線性價值函數近似
9.3 用於線性價值函數近似的投影貝爾曼算子
9.4 半梯度時序差分學習
9.5 分佈強化學習的半梯度算法
9.6 基於帶符號分佈的算法
9.7 帶符號算法的收斂性
9.8 技術備註
9.9 參考文獻備註
9.10 練習
第10章 深度強化學習
10.1 深度神經網絡學習
10.2 基於深度神經網絡的分佈強化學習
10.3 隱式參數化
10.4 深度強化學習智能體評估
10.5 預測如何塑造狀態表示
10.6 技術備註
10.7 參考文獻備註
10.8 練習
第11章 兩個應用和一個結論
11.1 多智能體強化學習
11.2 計算神經科學
11.3 結論
11.4 參考文獻備註
參考文獻