第一章,從阿爾法零的卓越性能出發,深入解讀其背後着實不易的成長曆程,揭示其數學模型。第二章,從確定性和隨機動態規劃問題入手,介紹決策問題的數學模型。第三章,從抽象視角回顧紛繁複雜的強化學習算法,揭示值函數近似與滾動改進的重要作用。第四章,從經典的線性二次型最優控制問題入手,分析從阿爾法零的成功中學到的經驗。第五章,分別從魯棒、自適應、模型預測控制等問題入手,分析值函數近似與滾動改進對算法性能的提升潛力。第六章,從離散優化的視角審視阿爾法零的成功經驗。第七章,總結全書。適合作為本領域研究者作為學術專著閱讀,也適合作為研究生和本科生作為參考書使用。
[美]德梅萃·P.博塞克斯(Dimitri P.Bertseka),美國MIT終身教授,美國國家工程院院士,清華大學複雜與網絡化系統研究中心客座教授。電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《動態規劃》《凸優化》《強化學習與最優控制》等十幾本暢銷教材和專著。