近年來,深度強化學習成為關注的熱點。在自動駕駛、棋牌遊戲、分子重排和機器人等領域,計算機程序能夠通過強化學習,理解以前被視為超級困難的問題,取得了令人矚目的成果。在圍棋比賽中,AlphaGo接連戰勝樊麾、李世石和柯潔等人類冠軍。深度強化學習從生物學和心理學領域的研究中受到啟發。生物學激發了人工神經網絡和深度學習的出現,而心理學研究人和動物如何學習,如何通過正負刺激來強化目標行為。了解了強化學習如何指導機器人行走時,我們不禁聯想到兒童如何在玩中學習。動物行為和大腦結構可作為新的科學和工程藍圖。計算機似乎真正具備了人類的某些行為特徵,深度強化學習技術成為實現AI夢想的核心。
教育界也十分重視深度強化學習的研究進展。許多大學開設了深度強化學習課程。本書恰到好處地介紹了深度強化學習領域的技術細節,可作為AI研究生課程的教材。本書講解全面,涵蓋深度Q-learning的基本算法,乃至多智能體強化學習和元學習等高級主題。
Aske Plaat是荷蘭萊頓大學的數據科學教授,兼任萊頓高級計算機科學研究所(LIACS)主任。Aske是萊頓數據科學中心(LCDS)的聯合創始人,發起了跨學科研究項目“社會、人工智能與生命科學”(SAILS)。Aske的研究領域包括強化學習、可擴展的組合推理算法、遊戲和自學習系統。