多智能體機器學習:強化學習方法 多智能体机器学习:强化学习方法

霍華德M施瓦茲

  • 出版商: 機械工業出版社
  • 出版日期: 2017-07-10
  • 定價: CNY $69.00
  • 售價: $414
  • 貴賓價: 9.5$393
  • 語言: 簡體中文
  • 頁數: 185
  • 裝訂: 平裝
  • ISBN: 7111569601
  • ISBN-13: 9787111569602

立即出貨

買這商品的人也買了...

產品描述

本書主要介紹了多智能體機器人強化學習的相關內容。全書共6章,首先介紹了幾種常用的監督式學習方法,在此基礎上,介紹了單智能體強化學習中的學習結構、值函數、馬爾科夫決策過程、策略迭代、時間差分學習、Q學習和資格跡等概念和方法。然後,介紹了雙人矩陣博弈問題、多人隨機博弈學習問題,並通過3種博弈游戲詳細介紹了納什均衡、學習算法、學習自動機、滯後錨算法等內容,並提出LR-I滯後錨算法和指數移動平均Q學習算法等,並進行了分析比較。接下來,介紹了模糊系統和模糊學習,並通過模擬示例詳細分析算法。後,介紹了群智能學習進化以及性格特徵概念和應用。全書內容豐富,重點突出。

作者簡介

Howard M.Schwartz 博士,在加拿大魁北克蒙特利爾的麥吉爾大學獲得工學學士學位,在美國馬薩諸塞州劍橋麻省理工學院獲得碩士和博士學位,現為加拿大渥太華卡爾頓大學系統與計算機工程系的教授,研究領域包括自適應和智能控制系統、機器人、機器學習、多智能體學習、系統辨識和狀態估計。

目錄

目錄大綱

目錄
譯者序
原書前言

第1章監督式學習概述 
1 1 LS算法 
1 2 RLS算法 
1 3 LMS算法 
1 4隨機逼近法 
參考文獻 

第2章單智能體強化學習 
2 1簡介 
2 2 n臂賭博機問題 
2 3學習結構 
2 4值函數 
2 5最優值函數 
2 5.1網格示例 
2 6 MDP 
2 7學習值函數 
2 8策略迭代 
2 9時間差分學習 
2 10狀態一行為函數的時間差分學習
2 11 Q學習 
2 12資格跡 
參考文獻 

第3章雙人矩陣博弈學習 
3 1矩陣博弈 
3 2雙人矩陣博弈中的納什均衡 
3 3雙人零和矩陣博弈中的線性規劃
3 4學習算法 
3 5梯度上升算法 
3 6 WoLF - IGA算法 
3 7 PHC算法 
3 8 WoLF - PHC算法 
3 9矩陣博弈中的分散式學習 
3 10學習自動機 
3 11線性回報一無為算法 
3 12線性回報一懲罰算法 
3 13滯後錨算法 
3 14 LR.滯後錨算法 
3 14.1仿真 
參考文獻 

第4章多人隨機博弈學習 
4 1簡介
4 2多人隨機博弈 
4 3極大極小Q學習算法 
4 3.1 2 x2網格博弈 
4 4納什Q學習算法 
4 4.1學習過程 
4 5單純形算法 
4 6 Lemke - Howson算法 
4 7納什Q學習算法實現 
4 8朋友或敵人Q學習算法 
4 9無限梯度上升算法 
4 10 PHC算法 
4 11 WoLF - PHC算法 
4 12網格世界中的疆土防禦問題 
4 12.1仿真和結果 
4 13 LR.滯後錨算法在隨機博弈中的擴展 
4 14 EMA Q學習算法 
4 15 EMA Q學習與其他方法的仿真與結果比較
4 15.1矩陣博弈 
4 15 2隨機博弈 
參考文獻 

第5章微分博弈 
5 1簡介 
5 2模糊系統簡述 
5 2.1模糊集和模糊規則 
5 2 2模糊推理機 
5 2 3模糊化與去模糊化 
5 2 4模糊系統及其示例 
5 3模糊Q學習 
5 4 FACL 
5 5瘋狂司機微分博弈 
5 6模糊控制器結構 
5.7 Q(A)學習模糊推理系統 
5 8瘋狂司機博弈的仿真結果 
5 9雙車追捕者一逃跑者博弈中的學習算法
5 10雙車博弈仿真 
5 11疆土防禦微分博弈 
5 12疆土防禦微分博弈中的形成回報 
5 13仿真結果 
5 13.1 -個防御者對一個人侵者 
5 13 2兩個防御者對一個人侵者 
參考文獻 

第6章群智能與性格特徵的進化 
6 1簡介 
6 2群智能的進化 
6 3環境表徵 
6 4群機器人的性格特徵 
6 5性格特徵的進化 
6 6仿真結構框架 
6 7零和博弈示例 
6 7.1收斂性 
6 7 2仿真結果 
6 8後續仿真實現 
6 9機器人走出房間 
6 10機器 跟踪目標 
6 11小結 
參考文獻