強化學習 强化学习

馬可·威寧 (Marco Wiering), 馬丁·範·奧特羅 (Martijn van Otterlo)

立即出貨 (庫存=1)

買這商品的人也買了...

相關主題

20190329 %e7%b0%a1%e9%ab%94%e6%96%b0%e6%9b%b8s

商品描述

本書共有19章,分為六大部分,詳細介紹了強化學習中各領域的基本理論和新進展,內容包括:MDP、動態規劃、蒙特卡羅方法、批處理強化學習、TD學習、Q學習、策略迭代的小二乘法、遷移學習、貝葉斯強化學習、、一階邏輯MDP、層次式強化學習、演化計算、預測性定義狀態表示、去中心化的部分可觀察MDP、博弈論和多學習器強化學習等內容,並闡述強化學習與心理和神經科學、游戲領域、機器人領域的關系和應用,後提出未來發展趨勢及研究熱點問題,有助於年輕的研究者瞭解整個強化學習領域,發現新的研究方向。本書適合作為高等院校機器學習相關課程的參考書,也可作為人工智能領域從業技術人員的參考用書。

作者簡介

馬可·威寧(Marco Wiering)在荷蘭格羅寧根大學人工智能係工作,他發表過各種強化學習主題的文章,研究領域包括強化學習、機器學習、深度學習、目標識別、文本學習,進化計算、機器人等。

馬丁·範·奧特羅(Martijn van Otterlo)是荷蘭奈梅亨大學認知人工智能小組的一員。主要研究領域是強化學習在環境中的知識表示。

目錄大綱

第一部分緒論
第1章強化學習和馬爾可夫決策過程2 
1.1簡介2 
1.2時序決策3 
1.2.1接近時序決策4 
1.2.2在線學習與離線學習4 
1.2.3貢獻分配5 
1.2.4探索–運用的平衡5 
1.2.5反饋、目標和性能5 
1.2.6表達6 
1.3正式的框架6 
1.3.1馬爾可夫決策過程7 
1.3 .2策略9 
1.3.3最優準則和減量9 
1.4價值函數和貝爾曼方程10 
1.5求解馬爾可夫決策過程12 
1.6動態規劃:基於模型的解決方案13 
1.6.1基本的動態規划算法13 
1.6 .2高效的動態規划算法17 
1.7強化學習:無模型的解決方案19 
1.7.1時序差分學習20 
1.7.2蒙特卡羅方法23 
1.7.3高效的探索和價值更新24 
1.8總結27
參考文獻27 

第二部分高效的解決方案框架
第2章批處理強化學習32 
2.1簡介32 
2.2批處理強化學習問題33 
2.2.1批處理學習問題33 
2.2.2增長批處理學習問題34 
2.3批處理強化學習算法的基礎34 
2.4批處理強化學習算法37 
2.4.1基於核的近似動態規劃37 
2.4.2擬合Q迭代39 
2.4.3基於最小二乘的策略迭代40 
2.4.4識別批處理算法41 
2.5批處理強化學習理論42 
2.6批處理強化學習的實現43 
2.6.1神經擬合Q迭代44 
2.6.2控制應用中的神經擬合Q迭代算法45 
2.6.3面向多學習器的批處理強化學習46 
2.6.4深度擬合Q迭代48 
2.6.5應用/發展趨勢49 
2.7總結50 
參考文獻50 

第3章策略迭代的最小二乘法53 
3.1簡介53 
3.2預備知識:經典策略迭代算法54 
3.3近似策略評估的最小二乘法55 
3.3.1主要原則和分類55 
3.3.2線性情況下和矩陣形式的方程57
3.3.3無模型算法的實現60 
3.3.4參考文獻62 
3.4策略迭代的在線最小二乘法63 
3.5例子:car-on-the-hill 64 
3.6性能保障66 
3.6.1漸近收斂性和保證66 
3.6 .2有限樣本的保證68 
3.7延伸閱讀73 
參考文獻74 

第4章學習和使用模型78 
4.1簡介78 
4.2什麼是模型79 
4.3規劃80 
4.4聯合模型和規劃82 
4.5樣本複雜度84 
4.6分解域86 
4.7探索88 
4.8連續域91 
4.9實證比較93 
4.10擴展95 
4.11總結96 
參考文獻97 

第5章強化學習中的遷移:框架和概觀101 
5.1簡介101 
5.2強化學習遷移的框架和分類102 
5.2.1遷移框架102 
5.2 .2分類104 
5.3固定狀態–動作空間中從源到目標遷移的方法108 
5.3.1問題形式化108 
5.3.2表示遷移109 
5.3.3參數遷移110
5.4固定狀態–動作空間中跨多任務遷移的方法111 
5.4.1問題形式化111 
5.4.2實例遷移111 
5.4.3表示遷移112 
5.4.4參數遷移113 
5.5不同狀態–動作空間中從源到目標任務遷移的方法114 
5.5.1問題形式化114 
5.5.2實例遷移115 
5.5.3表示遷移115 
5.5.4參數遷移116 
5.6總結和開放性問題116 
參考文獻117 

第6章探索的樣本複雜度邊界122 
6.1簡介122 
6.2預備知識123 
6.3形式化探索效率124 
6.3.1探索的樣本複雜度和PAC-MDP 124 
6.3.2遺憾最小化125 
6.3.3平均損失127 
6.3.4貝葉斯框架127 
6.4通用PAC -MDP定理128 
6.5基於模型的方法130 
6.5.1 Rmax 130 
6.5.2 Rmax的泛化132 
6.6無模型方法138 
6.7總結141 
參考文獻141 

第三部分建設性的表徵方向
第7章連續狀態和動作空間中的強化學習146
7.1簡介146 
7.1.1連續域中的馬爾可夫決策過程147 
7.1.2求解連續MDP的方法148 
7.2函數逼近149 
7.2.1線性函數逼近150 
7.2.2非線性函數逼近153 
7.2.3更新參數154 
7.3近似強化學習157 
7.3.1數值逼近157 
7.3.2策略逼近162 
7.4雙極車桿實驗168 
7.5總結171 
參考文獻171 

第8章綜述:求解一階邏輯馬爾可夫決策過程179 
8.1關係世界中的順序決策簡介179 
8.1.1馬爾可夫決策過程:代表性和可擴展性180 
8.1.2簡短的歷史和與其他領域的聯繫181 
8.2用面向對象和關係擴展馬爾可夫決策過程183 
8.2.1關係表示與邏輯歸納183 
8.2.2關係型馬爾可夫決策過程184 
8.2.3抽象問題和求解184 
8.3基於模型的解決方案186 
8.3.1貝爾曼備份的結構186 
8.3.2確切的基於模型的算法187 
8.3.3基於近似模型的算法190 
8.4無模型的解決方案192 
8.4.1固定泛化的價值函數學習192
8.4.2帶自適應泛化的價值函數193 
8.4.3基於策略的求解技巧196 
8.5模型、層級、偏置198 
8.6現在的發展201 
8.7總結和展望203 
參考文獻204 

第9章層次式技術213 
9.1簡介213 
9.2背景215 
9.2.1抽象動作215 
9.2.2半馬爾可夫決策問題216 
9.2.3結構217 
9.2.4狀態抽象218 
9.2.5價值函數分解219 
9.2.6優化220 
9.3層次式強化學習技術220 
9.3.1選項221 
9.3.2 HAMQ學習222 
9.3.3 MAXQ 223 
9.4學習結構226 
9.5相關工作和當前研究228 
9.6總結230 
參考文獻230 

第10章針對強化學習的演化計算235 
10.1簡介235 
10.2神經演化237 
10.3 TWEANN 239 
10.3.1挑戰239 
10.3.2 NEAT 240 
10.4混合方法241
10.4.1演化函數近似242 
10.4.2 XCS 243 
10.5協同演化245 
10.5.1合作式協同演化245 
10.5.2競爭式協同演化246 
10.6生成和發展系統247 
10.7在線方法249 
10.7.1基於模型的技術249 
10.7.2在線演化計算250 
10.8總結251 
參考文獻251 

第四部分概率模型
第11章貝葉斯強化學習260 
11.1簡介260 
11.2無模型貝葉斯強化學習261 
11.2.1基於價值函數的算法261 
11.2. 2策略梯度算法264 
11.2.3演員–評論家算法266 
11.3基於模型的貝葉斯強化學習268 
11.3.1由POMDP表述的貝葉斯強化學習268 
11.3.2通過動態規劃的貝葉斯強化學習269 
11.3.3近似在線算法271 
11.3.4貝葉斯多任務強化學習272 
11.3.5集成先驗知識273 
11.4有限樣本分析和復雜度問題274 
11.5總結和討論275 
參考文獻275 

第12章部分可觀察的馬爾可夫決策過程279
12.1簡介279 
12.2部分可觀察環境中的決策280 
12.2.1 POMDP模型280 
12.2.2連續和結構化的表達281 
12.2.3優化決策記憶282 
12.2.4策略和價值函數284 
12.3基於模型的技術285 
12.3 .1基於MDP的啟發式解決方案285 
12.3.2 POMDP的值迭代286 
12.3.3確切的值迭代288 
12.3.4基於點的值迭代方法290 
12.3.5其他近似求解方法291 
12.4無先驗模型的決策292 
12.4.1無記憶技術292 
12.4.2學習內部記憶292 
12.5近期研究趨勢294 
參考文獻295 

第13章預測性定義狀態表示300 
13.1簡介300 
13.1.1狀態是什麼301 
13.1.2哪一個狀態表示301 
13.1.3為什麼使用預測性定義模型302 
13.2 PSR 303 
13.2.1歷史及測試303 
13.2.2測試的預測304 
13.2.3系統動態向量304 
13.2.4系統動態矩陣305
13.2.5充分的數據集305 
13.2.6狀態306 
13.2.7更新狀態306 
13.2.8線性PSR 307 
13.2.9線性PSR與POMDP的關聯307 
13.2.10線性PSR的理論結果308 
13.3 PSR模型學習308 
13.3 .1發現問題308 
13.3.2學習問題309 
13.3.3估計系統動態矩陣309 
13.4規劃與PSR 309 
13.5 PSR的擴展310 
13.6其他具有預測性定義狀態的模型311 
13.6.1可觀測算子模型311 
13.6. 2預測線性高斯模型312 
13.6.3時序差分網絡312 
13.6.4分集自動機312 
13.6.5指數族PSR 313 
13.6.6轉換PSR 313 
13.7總結313 
參考文獻314 

第14章博弈論和多學習器強化學習317 
14.1簡介317 
14.2重複博弈319 
14.2.1博弈論319 
14.2.2重複博弈中的強化學習322 
14.3順序博弈325 
14.3.1馬爾可夫博弈326
14.3.2馬爾可夫博弈中的強化學習327 
14.4在多學習器系統中的稀疏交互330 
14.4.1多等級學習330 
14.4.2協調學習與稀疏交互331 
14.5延伸閱讀334 
參考文獻334 

第15章去中心化的部分可觀察馬爾可夫決策過程338 
15.1簡介338 
15.2 Dec-POMDP框架339 
15.3歷史狀態與策略340 
15.3.1歷史狀態341 
15.3.2策略341 
15.3.3策略的結構342 
15.3.4聯合策略的質量343 
15.4有限域的Dec-POMDP的解決方案344 
15.4.1窮舉搜索和Dec-POMDP複雜性344 
15.4.2交替最大化344 
15.4.3 Dec-POMDP的最優價值函數345 
15.4.4前推法:啟發式搜索348 
15.4.5後推法:動態規劃350 
15.4.6其他有限域的方法353 
15.5延伸閱讀353 
15.5.1一般化和特殊問題353 
15.5.2有限Dec-POMDP 354 
15.5.3強化學習355 
15.5.4通信356
參考文獻356 

第五部分其他應用領域
第16章強化學習與心理和神經科學之間的關係364 
16.1簡介364 
16.2經典(巴甫洛夫)條件反射365 
16.2.1行為365 
16.2.2理論366 
16.2. 3小結和其他注意事項367 
16.3操作性(工具性)條件反射368 
16.3.1動作368 
16.3.2理論369 
16.3.3基於模型的控制與無模型的控制370 
16.3.4小結和其他注意事項371 
16.4多巴胺371 
16.4.1多巴胺作為獎勵預測誤差372 
16.4.2多巴胺的強化信號的作用372 
16.4.3小結和其他注意事項373 
16.5基底神經節373 
16.5.1基底神經節概述374 
16.5.2紋狀體的神經活動374 
16.5.3皮質基神經節丘腦循環375 
16.5.4小結和其他注意事項377 
16.6總結378 
參考文獻378 

第17章遊戲領域的強化學習387 
17.1簡介387 
17.1.1目標和結構387
17.1.2 範圍388