分佈強化學習-FindBook 找書網 ISBN:9787111789642

內容簡介

本書是關於分布式強化學習的全面指南，為從概率視角思考決策問題提供了新的數學框架。

本書主要介紹分布式強化學習的關鍵概念及應用，對於重要的結果均給出了數學證明，從而說明分布式強化學習有能力解釋在人機交互環境中產生的許多複雜且有趣的現象。讀者將瞭解一系列算法和數學理論的發展過程，在這些過程中依次對隨機回報進行特徵描述、計算和估計，最後基於此做出決策。

本書就實際問題給出了有效的解決思路，適合機器人學、計算神經科學、心理學、金融（風險管理）等不同領域的技術人員參考，也適合高校計算機、人工智能等相關專業的學生閱讀。

作者介紹

王金強：蘭州大學計算機應用技術專業在讀博士，主要從事人工智能和機器人領域研究工作，出版專著1部。主持甘肅省自然科學基金項目（優秀博士生項目）1項。曾獲甘肅省科技進步二等獎、甘肅省專利獎三等獎、國家獎學金、華為獎學金、甘肅省技術標兵、甘肅省“三好學生”等榮譽。

譯者序
前言
符號表
第1章導論
1.1 為什麼是分佈強化學習
1.2 示例：Kuhn撲克
1.3 分佈強化學習有何不同
1.4 本書的讀者對象和結構
1.5 參考文獻備註
第2章回報的分佈
2.1 隨機變量及其概率分佈
2.2 馬爾可夫決策過程
2.3 彈球模型
2.4 回報
2.5 貝爾曼方程
2.6 隨機軌跡的性質
2.7 隨機變量貝爾曼方程
2.8 從隨機變量到概率分佈
2.9 回報分佈的替代概念
2.10 技術備註
2.11 參考文獻備註
2.12 練習
第3章學習回報分佈
3.1 蒙特卡羅方法
3.2 增量學習
3.3 時序差分學習
3.4 從值到概率
3.5 投影過程
3.6 分類時序差分學習
3.7 學習控制
3.8 進一步的考慮
3.9 技術備註
3.10 參考文獻備註
3.11 練習
第4章算子和度量指標
4.1 貝爾曼算子
4.2 收縮映射
4.3 分佈貝爾曼算子
4.4 回報函數的Wasserstein距離
4.5 lp概率度量和Cramer距離
4.6 收縮性的充分條件
4.7 域問題
4.8 回報函數的弱收斂性
4.9 隨機變量貝爾曼算子
4.10 技術備註
4.11 參考文獻備註
4.12 練習
第5章分佈動態規劃
5.1 計算模型
5.2 回報-分佈函數的表示
5.3 經驗表示
5.4 正態表示
5.5 固定大小的經驗表示
5.6 投影步驟
5.7 分佈動態規劃
5.8 擴散引起的誤差
5.9 分佈動態規劃的收斂性
5.10 分佈近似的質量
5.11 設計分佈動態規劃算法
5.12 技術備註
5.13 參考文獻備註
5.14 練習
第6章增量算法
6.1 計算與統計估計
6.2 從算子到增量算法
6.3 分類時序差分學習
6.4 分位數時序差分學習
6.5 理論分析的算法模板
6.6 合理的步長
6.7 收斂性分析概述
6.8 增量算法的收斂性
6.9 時序差分學習的收斂性
6.10 分類時序差分學習的收斂性
6.11 技術備註
6.12 參考文獻備註
6.13 練習
第7章控制
7.1 風險中性控制
7.2 價值迭代和Q-學習
7.3 分佈值迭代
7.4 分佈最優算子的動力學
7.5 存在多個最優策略時的動態分析
7.6 風險和風險敏感控制
7.7 風險敏感控制面臨的挑戰
7.8 條件風險價值
7.9 技術備註
7.10 參考文獻備註
7.11 練習
第8章統計泛函
8.1 統計泛函概述
8.2 矩
8.3 貝爾曼封閉性
8.4 統計泛函動態規劃
8.5 與分佈動態規劃的關係
8.6 期望分位數動態規劃
8.7 統計泛函的無限集合
8.8 矩時序差分學習
8.9 技術備註
8.10 參考文獻備註
8.11 練習
第9章線性函數近似
9.1 函數近似和混疊
9.2 最優線性價值函數近似
9.3 用於線性價值函數近似的投影貝爾曼算子
9.4 半梯度時序差分學習
9.5 分佈強化學習的半梯度算法
9.6 基於帶符號分佈的算法
9.7 帶符號算法的收斂性
9.8 技術備註
9.9 參考文獻備註
9.10 練習
第10章深度強化學習
10.1 深度神經網絡學習
10.2 基於深度神經網絡的分佈強化學習
10.3 隱式參數化
10.4 深度強化學習智能體評估
10.5 預測如何塑造狀態表示
10.6 技術備註
10.7 參考文獻備註
10.8 練習
第11章兩個應用和一個結論
11.1 多智能體強化學習
11.2 計算神經科學
11.3 結論
11.4 參考文獻備註
參考文獻

看更多

詳細資料

ISBN：9787111789642
規格：平裝 / 242頁 / 19 x 26 x 1.21 cm / 普通級 / 1-1
出版地：中國

分佈強化學習

內容簡介

作者介紹

目錄

詳細資料