強化學習與隨機優化：序貫決策的通用框架

[美] 沃倫·B. 鮑威爾（Warren B. Powell）著郭濤譯

預覽內頁

出版商: 清華大學
出版日期: 2025-09-01
售價: $1,536
貴賓價: 9.5 折 $1,459
語言: 簡體中文
頁數: 780
ISBN: 7302697140
ISBN-13: 9787302697145
相關分類: Reinforcement
此書翻譯自: Reinforcement Learning and Stochastic Optimization: A Unified Framework for Sequential Decisions

立即出貨

商品描述

"由“決策、信息、決策、信息”組成的序貫決策問題無處不在，幾乎涵蓋了人類的所有活動，包括商業應用、衛生(個人健康、公共衛生和醫療決策)、能源、科學、各工程領域、金融和電子商務等。應用的多樣性吸引了至少15個不同研究領域的關註，使用了8種不同的符號系統，產生了大量的分析工具。而其弊端是，由某一領域開發的強大工具可能不為其他領域所知。本書提供了一個可以借助5個核心組件(狀態變量、決策變量、外部信息變量、轉移函數和目標函數)對任何序貫決策問題進行建模的通用框架；強調了可能影響任何模型的12種不確定性，並將做決策的各種方法(稱為策略)歸納為4個基本類別，涵蓋學術文獻中提出的或實踐中使用的所有方法。本書是一本探討如何對不同方法進行均衡處理，以便建模和解決序貫決策問題的開創性圖書，承襲了大多數聚焦機器學習、優化和模擬的書籍的風格。本書專為具有概率和統計背景知識並對建模和應用程序感興趣的讀者而設計。線性規劃有時用於特定的問題類型。本書專為剛接觸這一領域的讀者以及對不確定優化有一定了解的讀者而著。本書提及了100多種不同應用，包括純學習問題、動態資源分配問題、一般狀態相關問題和混合學習/資源分配問題(如COVID-19全球流行期間出現的問題)。全書共有370個練習，分為7組，包括復習問題、建模問題、計算練習、求解問題、理論問題、編程練習和讀者在本書伊始選擇的“每日一問”，且“每日一問”為本書其余問題的基礎。"

作者簡介

沃倫·B. 鮑威爾博士是普林斯頓大學(Princeton University)運籌學與金融工程榮譽退休教授，在該校任教39年。他是CASTLE實驗室的創始人兼主任，該實驗室作為一個研究單位，與行業夥伴合作，檢驗運籌學研究中發現的新想法。他指導過70名研究生和博士後，與他們合著了250多篇論文。他目前是Optimal Dynamics的首席分析官，Optimal Dynamics是一家實驗室分支機構，負責將他的研究結果引入行業內。

目錄大綱

第Ⅰ部分　導　　論

第1章　序貫決策問題 3

1.1　目標讀者 6

1.2　序貫決策問題領域 6

1.3　通用建模框架 8

1.4　序貫決策問題的策略設計 11

1.4.1　策略搜索 12

1.4.2　基於前瞻近似的策略 13

1.4.3　混合和匹配 14

1.4.4　4類的最優性 14

1.4.5　概述 14

1.5　學習 15

1.6　主題 16

1.6.1　混合學習和優化 16

1.6.2　將機器學習橋接到序貫決策 16

1.6.3　從確定性優化到隨機優化 17

1.6.4　從單個智能體到多個智能體 19

1.7　建模方法 20

1.8　如何閱讀本書 21

1.8.1　主題編排 21

1.8.2　如何閱讀每一章 23

1.8.3　練習分類 24

1.9　參考文獻註釋 25

練習 25

參考文獻 28

第2章　典型問題及其應用 29

2.1　典型問題 29

2.1.1　隨機搜索——基於導數和無導數 30

2.1.2　決策樹 32

2.1.3　馬爾可夫決策過程 33

2.1.4　最優控制 35

2.1.5　近似動態規劃 37

2.1.6　強化學習 37

2.1.7　最優停止 39

2.1.8　隨機規劃 41

2.1.9　多臂老虎機問題 42

2.1.10　模擬優化 44

2.1.11　主動學習 44

2.1.12　機會約束規劃 45

2.1.13　模型預測控制 45

2.1.14　魯棒優化 46

2.2　序貫決策問題的通用建模框架 47

2.2.1　序貫決策問題的通用模型 47

2.2.2　緊湊型建模 49

2.2.3　MDP/RL與最優控制建模框架 50

2.3　應用 51

2.3.1　報童問題 51

2.3.2　庫存/儲存問題 53

2.3.3　最短路徑問題 55

2.3.4　一些車隊管理問題 57

2.3.5　定價 59

2.3.6　醫療決策 59

2.3.7　科學探索 60

2.3.8　機器學習與序貫決策問題 61

2.4　參考文獻註釋 62

練習 66

參考文獻 68

第3章　在線學習 69

3.1　序貫決策的機器學習 69

3.1.1　隨機優化中的觀察和數據 70

3.1.2　索引輸入xn和響應yn+1 70

3.1.3　正在學習的函數 71

3.1.4　序貫學習：從很少的數據到更多的數據 72

3.1.5　近似策略 72

3.1.6　從數據分析到決策分析 74

3.1.7　批量學習與在線學習 75

3.2　使用指數平滑的自適應學習 75

3.3　使用頻率更新的查找表 76

3.4　使用貝葉斯更新的查找表 77

3.4.1　獨立信念的更新公式 77

3.4.2　相關信念的更新 78

3.4.3　高斯過程回歸 81

3.5　計算偏差和方差* 82

3.6　查找表和聚合* 84

3.6.1　分層聚合 84

3.6.2　不同聚合水平的估計 86

3.6.3　組合多個聚合級別 89

3.7　線性參數模型 91

3.7.1　線性回歸 92

3.7.2　稀疏加性模型和Lasso 93

3.8　線性模型的遞歸最小二乘法 94

3.8.1　平穩數據的遞歸最小二乘法 95

3.8.2　非平穩數據的遞歸最小二乘法* 96

3.8.3　使用多次觀察的遞歸估計* 97

3.9　非線性參數模型 98

3.9.1　最大似然估計 98

3.9.2　采樣信念模型 99

3.9.3　神經網絡——參數* 100

3.9.4　神經網絡的局限性 104

3.10　非參數模型* 105

3.10.1　k-最近鄰 106

3.10.2　內核回歸 106

3.10.3　局部多項式回歸 108

3.10.4　深度神經網絡 108

3.10.5　支持向量機 109

3.10.6　索引函數、樹結構和聚類 110

3.10.7　非參數模型評註 111

3.11　非平穩學習* 112

3.11.1　非平穩學習I——鞅真理 112

3.11.2　非平穩學習II——瞬時真理 113

3.11.3　學習過程 113

3.12　維數災難 114

3.13　自適應學習中的近似架構設計 116

3.14　為什麼有效** 117

3.14.1　遞歸估計公式的推導 117

3.14.2　謝爾曼-莫裏森更新公式 119

3.14.3　分層估計中的相關性 120

3.14.4　命題3.14.1的證明 122

3.15　參考文獻註釋 124

練習 125

參考文獻 128

第4章　隨機搜索簡介 129

4.1　基本隨機優化問題闡釋 130

4.2　確定性方法 133

4.2.1　“隨機”最短路徑問題 133

4.2.2　具有已知分布的報童問題 133

4.2.3　機會約束優化 134

4.2.4　最優控制 134

4.2.5　離散馬爾可夫決策過程 135

4.2.6　備註 136

4.3　采樣模型 136

4.3.1　建立采樣模型 137

4.3.2　收斂性 139

4.3.3　創建采樣模型 140

4.3.4　分解策略* 142

4.4　自適應學習算法 143

4.4.1　建模自適應學習問題 143

4.4.2　在線與離線的應用 144

4.4.3　用於學習的目標函數 145

4.4.4　設計策略 148

4.5　小結 148

4.6　參考文獻註釋 149

練習 150

參考文獻 154

第Ⅱ部分　隨機搜索

第5章　基於導數的隨機搜索 156

5.1　一些示例應用程序 158

5.2　建模不確定性 160

5.2.1 　訓練不確定性160

5.2.2　模型不確定性S0 160

5.2.3　測試不確定性 161

5.2.4　策略評估 162

5.2.5　結束語 162

5.3　隨機梯度法 162

5.3.1　隨機梯度算法 163

5.3.2　步長簡介 164

5.3.3　評估隨機梯度算法 165

5.3.4　符號註釋 166

5.4　梯度樣式 166

5.4.1　梯度平滑 166

5.4.2　二階方法 167

5.4.3　有限差分 168

5.4.4　SPSA 169

5.4.5　約束問題 170

5.5　神經網絡參數優化* 171

5.5.1　計算梯度 172

5.5.2　隨機梯度算法 173

5.6　作為序貫決策問題的隨機梯度算法 174

5.7　實證問題 175

5.8　瞬態問題* 176

5.9　理論性能* 176

5.10　為什麼有效 177

5.10.1　概率論基礎知識 177

5.10.2　一個舊證明* 178

5.10.3　更現代的證明** 181

5.11　參考文獻註釋 186

練習 187

參考文獻 191

第6章　步長策略 192

6.1　確定性步長策略 194

6.1.1　收斂性 194

6.1.2　確定性策略集錦 196

6.2　自適應步長策略 199

6.2.1　自適應步長的情況 200

6.2.2　收斂條件 200

6.2.3　隨機策略集錦 201

6.2.4　實驗筆記 204

6.3　最優步長策略* 204

6.3.1　平穩數據的最佳步長 205

6.3.2　非平穩數據的最佳步長1 207

6.3.3　非平穩數據的最佳步長2 208

6.4　近似值疊代的最佳步長* 212

6.5　收斂 214

6.6　如何選擇步長策略 214

6.7　為什麼有效* 216

6.8　參考文獻註釋 218

練習 218

參考文獻 222

第7章　無導數隨機搜索 223

7.1　無導數隨機搜索概述 225

7.1.1　應用和時間尺度 225

7.1.2　無導數隨機搜索領域 226

7.1.3　多臂老虎機故事 226

7.1.4　從被動學習到主動學習再到老虎機問題 228

7.2　無導數隨機搜索建模 229

7.2.1　通用模型 229

7.2.2　示例：優化制造過程 231

7.2.3　主要問題類別 232

7.3　設計策略 232

7.4　策略函數近似 235

7.5　成本函數近似 236

7.6　基於價值函數近似的策略 238

7.6.1　最優策略 239

7.6.2　貝塔-伯努利信念模型 240

7.6.3　後向近似動態規劃 241

7.6.4　穩態學習的Gittins指數* 243

7.7　基於直接前瞻模型的策略 247

7.7.1　何時需要前瞻策略 247

7.7.2　單周期前瞻策略 248

7.7.3　有約束的多周期前瞻 250

7.7.4　多周期確定性前瞻 252

7.7.5　多周期隨機前瞻策略 253

7.7.6　混合直接前瞻 256

7.8　知識梯度(續)* 257

7.8.1　信念模型 257

7.8.2　使最終回報最大化的知識梯度 258

7.8.3　累積回報最大化的知識梯度 262

7.8.4　采樣信念模型的知識梯度* 263

7.8.5　相關信念的知識梯度 267

7.9　批量學習 272

7.10　模擬優化* 273

7.10.1　無差異區域算法 273

7.10.2　最優計算預算分配 274

7.11　評估策略* 276

7.11.1　備選方案性能指標* 276

7.11.2　最優視角* 281

7.12　設計策略 283

7.12.1　策略的特點 283

7.12.2　縮放效果 284

7.12.3　調整 285

7.13　擴展* 286

7.13.1　非平穩環境中的學習 286

7.13.2　設計策略的策略 287

7.13.3　瞬態學習模型 288

7.13.4　瞬態問題的知識梯度 288

7.13.5　使用大型或連續選擇集學習 289

7.13.6　利用外部狀態信息學習——上下文老虎機問題 291

7.13.7　狀態相關問題與狀態無關問題 293

7.14　參考文獻註釋 294

練習 296

參考文獻 304

第Ⅲ部分　狀態相關問題

第8章　狀態相關的應用 307

8.1　圖問題 308

8.1.1　隨機最短路徑問題 309

8.1.2　漂泊的貨車司機 309

8.1.3　變壓器更換問題 310

8.1.4　資產評估 311

8.2　庫存問題 313

8.2.1　基本庫存問題 313

8.2.2　進階庫存問題 314

8.2.3　滯後資產收購問題 315

8.2.4　批量補貨問題 316

8.3　復雜的資源配置問題 318

8.3.1　動態分配問題 318

8.3.2　血液管理問題 321

8.4　狀態相關的學習問題 326

8.4.1　醫療決策 327

8.4.2　實驗室實驗 327

8.4.3　廣告點擊競價 328

8.4.4　信息收集最短路徑問題 328

8.5　問題類序列 329

8.6　參考文獻註釋 330

練習 330

參考文獻 333

第9章　序貫決策問題建模 334

9.1　簡單建模 337

9.2　符號風格 340

9.3　時間建模 342

9.4　系統的狀態 344

9.4.1　定義狀態變量 344

9.4.2　系統的三種狀態 347

9.4.3　初始狀態與後續狀態“” 349

9.4.4　滯後狀態變量* 350

9.4.5　決策後狀態變量* 351

9.4.6　最短路徑圖解 353

9.4.7　信念狀態* 354

9.4.8　潛在變量* 355

9.4.9　滾動預測* 356

9.4.10　平面與因子狀態表示* 357

9.4.11　程序員對狀態變量的看法 357

9.5　建模決策 358

9.5.1　決策類型 359

9.5.2　初始決策與後續決策“” 360

9.5.3　戰略、戰術和執行決策 360

9.5.4　約束 361

9.5.5　策略介紹 362

9.6　外生信息過程 362

9.6.1　信息過程的基本符號 362

9.6.2　結果和場景 364

9.6.3　滯後的信息過程* 365

9.6.4　信息過程模型* 366

9.6.5　監督過程* 368

9.7　轉移函數 368

9.7.1　通用模型 369

9.7.2　無模型動態規劃 370

9.7.3　外生轉移 370

9.8　目標函數 371

9.8.1　性能指標 371

9.8.2　優化策略 372

9.8.3　最優策略對的依賴性 372

9.8.4　狀態相關的變量 373

9.8.5　不確定算子 374

9.9　示例：能量儲存模型 375

9.9.1　使用時間序列價格模型 376

9.9.2　使用被動學習 376

9.9.3　使用主動學習 377

9.9.4　使用滾動預測 377

9.10　基本模型和前瞻模型 378

9.11　問題的分類* 379

9.12　策略評估* 381

9.13　高級概率建模概念** 383

9.13.1　信息的測度論視角** 383

9.13.2　策略和可測量性 386

9.14　展望 387

9.15　參考文獻註釋 388

練習 390

參考文獻 399

第10章　不確定性建模 400

10.1　不確定性來源 401

10.1.1　觀察的誤差 402

10.1.2　外生的不確定性 403

10.1.3　預測的不確定性 404

10.1.4　推斷(或診斷)的不確定性 405

10.1.5　實驗的可變性 406

10.1.6　模型的不確定性 407

10.1.7　轉移的不確定性 408

10.1.8　控制/實現的不確定性 409

10.1.9　通信誤差和偏差 409

10.1.10　算法的不穩定性 409

10.1.11　目標的不確定性 410

10.1.12　政治/監管的不確定性 410

10.1.13　討論 411

10.2　建模案例研究：COVID-19疫情 411

10.3　隨機建模 412

10.3.1　外生信息采樣 412

10.3.2　分布類型 413

10.3.3　建模樣本路徑 413

10.3.4　狀態動作相關過程 414

10.3.5　相關性建模 415

10.4　蒙特卡洛模擬 416

10.4.1　生成均勻分布[0,1]隨機變量 416

10.4.2　均勻和正態隨機變量 417

10.4.3　從逆累積分布生成隨機變量 419

10.4.4　分位數分布的逆累積 420

10.4.5　不確定參數分布 420

10.5　案例研究：電價建模 422

10.5.1　均值回歸 423

10.5.2　跳躍—擴散模型 423

10.5.3　分位數分布 424

10.5.4　機制轉變 424

10.5.5　交叉時間 425

10.6　采樣與采樣模型 426

10.6.1　疊代采樣：一種隨機梯度算法 426

10.6.2　靜態采樣：求解一個采樣模型 427

10.6.3　貝葉斯更新采樣表示 427

10.7　結束語 428

10.8　參考文獻註釋 428

練習 429

參考文獻 431

第11章　策略設計 432

11.1　從優化到機器學習再到序貫決策問題 433

11.2　策略類別 434

11.3　策略函數近似 437

11.4　成本函數近似 439

11.5　價值函數近似 440

11.6　直接前瞻近似 441

11.6.1　基本理念 441

11.6.2　前瞻問題建模 443

11.6.3　策略中的策略 444

11.7　混合策略 445

11.7.1　成本函數近似與策略函數近似 445

11.7.2　具有價值函數近似的前瞻策略 446

11.7.3　具有成本函數近似的前瞻策略 447

11.7.4　具有卷展欄啟發式和查找表策略的樹搜索 447

11.7.5　兼具策略函數近似的價值函數近似 447

11.7.6　使用ADP和策略搜索擬合價值函數 448

11.8　隨機策略 449

11.9　示例：重新審視儲能模型 450

11.9.1　策略函數近似 450

11.9.2　成本函數近似 450

11.9.3　價值函數近似 451

11.9.4　確定性前瞻 451

11.9.5　混合前瞻—成本函數近似 451

11.9.6　實驗測試 451

11.10　選擇策略類 452

11.10.1　策略類 453

11.10.2　策略復雜性——計算權衡 456

11.10.3　篩選問題 458

11.11　策略評估 459

11.12　參數調整 460

11.12.1　軟問題 461

11.12.2　跨策略類搜索 462

11.13　參考文獻註釋 463

練習 463

參考文獻 466

第Ⅳ部分　策略搜索

第12章　策略函數近似和策略搜索 469

12.1　作為序貫決策問題的策略搜索 470

12.2　策略函數近似的分類 471

12.2.1　查找表策略 472

12.2.2　離散動作的玻爾茲曼策略 472

12.2.3　線性決策規則 473

12.2.4　單調策略 473

12.2.5　非線性策略 474

12.2.6　非參數/局部線性策略 475

12.2.7　上下文策略 476

12.3　問題特征 476

12.4　策略查詢的類型 477

12.5　基於數值導數的策略搜索 479

12.6　無導數策略搜索方法 480

12.6.1　信念模型 480

12.6.2　通過擾動PFA學習 481

12.6.3　學習CFA 483

12.6.4　使用知識梯度的DLA 484

12.6.5　說明 486

12.7　連續序貫問題的精確導數* 486

12.8　離散動態規劃的精確導數** 487

12.8.1　隨機策略 488

12.8.2　目標函數 489

12.8.3　策略梯度定理 489

12.8.4　計算策略梯度 490

12.9　監督學習 491

12.10　有效的原因 493

12.11　參考文獻註釋 495

練習 496

參考文獻 501

第13章　成本函數近似 502

13.1　參數CFA的一般公式 504

13.2　目標修正的CFA 504

13.2.1　線性成本函數修正 504

13.2.2　動態分配問題的CFA 505

13.2.3　動態最短路徑 506

13.2.4　動態交易策略 509

13.2.5　討論 511

13.3　約束修正的CFA 511

13.3.1　約束修正CFA的通用公式 512

13.3.2　血液管理問題 513

13.3.3　滾動預測的儲能示例 514

13.4　參考文獻註釋 520

練習 520

參考文獻 522

第Ⅴ部分　前瞻策略

第14章　精確動態規劃 527

14.1　離散動態規劃 528

14.2　最優方程 529

14.2.1　貝爾曼方程 530

14.2.2　計算轉移矩陣 533

14.2.3　隨機貢獻 533

14.2.4　使用算子符號的貝爾曼方程* 534

14.3　有限時域問題 535

14.4　具有精確解的連續問題 537

14.4.1　賭博問題 537

14.4.2　持續預算問題 539

14.5　無限時域問題* 540

14.6　無限時域問題的值疊代* 542

14.6.1　高斯-塞德爾變體 543

14.6.2　相對值疊代 543

14.6.3　收斂界限和速度 544

14.7　無限時域問題的策略疊代* 546

14.8　混合值—策略疊代* 548

14.9　平均回報動態規劃* 549

14.10　動態規劃的線性規劃方法** 550

14.11　線性二次調節 550

14.12　有效的原因** 552

14.12.1　最優方程 552

14.12.2　值疊代的收斂性 556

14.12.3　值疊代單調性 560

14.12.4　從值疊代中界定誤差 561

14.12.5　隨機化策略 562

14.13　參考文獻註釋 563

練習 563

參考文獻 570

第15章　後向近似動態規劃 571

15.1　有限時域問題的後向近似動態規劃 572

15.1.1　準備工作 572

15.1.2　使用查找表的後向ADP 574

15.1.3　具有連續近似的後向ADP算法 575

15.2　無限時域問題的擬合值疊代 578

15.3　價值函數近似策略 579

15.3.1　線性模型 579

15.3.2　單調函數 580

15.3.3　其他近似模型 582

15.4　計算觀察 582

15.4.1　後向ADP的實驗基準 582

15.4.2　計算註意事項 586

15.5　參考文獻註釋 586

練習 587

參考文獻 590

第16章　前向ADP I：策略價值 591

16.1　對策略價值進行采樣 592

16.1.1　有限時域問題的直接策略評估 592

16.1.2　無限時域問題的策略評估 593

16.1.3　時間差分更新 595

16.1.4　TD(𝜆) 596

16.1.5　TD(0)和近似值疊代 597

16.1.6　無限時域問題的TD學習 598

16.2　隨機近似方法 600

16.3　使用線性模型的貝爾曼方程* 601

16.3.1　基於矩陣的推導** 602

16.3.2　基於模擬的實現 604

16.3.3　最小二乘時間差分學習 604

16.3.4　最小二乘法策略評估 605

16.4　使用單一狀態分析TD(0)、LSTD和LSPE* 605

16.4.1　遞歸最小二乘法和TD(0) 606

16.4.2　LSPE 607

16.4.3　LSTD 607

16.4.4　討論 607

16.5　基於梯度的近似值疊代方法* 608

16.5.1　線性模型的近似值疊代** 608

16.5.2　線性模型的幾何視圖* 612

16.6　基於貝葉斯學習的價值函數近似* 613

16.6.1　最小化無限時域問題的偏差 614

16.6.2　具有相關信念的查找表 614

16.6.3　參數模型 615

16.6.4　創建先驗 615

16.7　學習算法和步長 616

16.7.1　最小二乘時間差分 616

16.7.2　最小二乘法策略評估 617

16.7.3　遞歸最小二乘法 617

16.7.4　近似值疊代的1/n收斂界 618

16.7.5　討論 619

16.8　參考文獻註釋 620

練習 621

參考文獻 623

第17章　前向ADP II：策略優化 624

17.1　算法策略概述 625

17.2　使用查找表的近似值疊代和Q學習 627

17.2.1　使用決策前狀態變量的值疊代 627

17.2.2　Q學習 628

17.2.3　使用決策後狀態變量的值疊代 630

17.2.4　使用反向傳播的值疊代 632

17.3　學習方式 635

17.3.1　離線學習 635

17.3.2　從離線到在線 636

17.3.3　評估離線學習策略和在線學習策略 637

17.3.4　前瞻策略 638

17.4　使用線性模型的近似值疊代 638

17.5　在線策略學習與離線策略學習以及探索—利用問題 640

17.5.1　術語 641

17.5.2　使用查找表學習 641

17.5.3　使用廣義信念模型學習 642

17.6　應用 644

17.6.1　美國期權定價 644

17.6.2　逆向井字棋 647

17.6.3　確定性問題的近似動態規劃 648

17.7　近似策略疊代 648

17.7.1　使用查找表的有限時域問題 649

17.7.2　使用線性模型的有限時域問題 650

17.7.3　使用線性模型求解無限時域問題的LSTD 651

17.8　演員—評論家範式 653

17.9　最大算子的統計偏差* 655

17.10　使用線性模型的線性規劃方法* 657

17.11　穩態應用的有限時域近似 660

17.12　參考文獻註釋 661

練習 662

參考文獻 666

第18章　前向ADP III：凸性資源分配問題 667

18.1　資源分配問題 669

18.1.1　報童問題 669

18.1.2　兩階段資源分配問題 671

18.1.3　一個通用多周期資源分配模型* 672

18.2　價值與邊際價值 674

18.3　標量函數的分段線性近似 675

18.3.1　調平算法 676

18.3.2　CAVE算法 677

18.4　回歸方法 678

18.5　可分的分段線性近似 680

18.6　非可分近似的Benders分解** 682

18.6.1　兩階段問題的Benders分解 682

18.6.2　具有正則化的Benders的漸近分析** 686

18.6.3　正則化Benders 688

18.7　高維應用的線性近似 689

18.8　具有外生信息狀態的資源分配 690

18.9　結束語 691

18.10　參考文獻註釋 691

練習 693

參考文獻 697

第19章　直接前瞻策略 698

19.1　使用前瞻模型的最優策略 700

19.2　創建近似前瞻模型 703

19.2.1　前瞻模型建模 704

19.2.2　近似前瞻模型策略 704

19.3　前瞻模型中的修改目標 708

19.3.1　風險管理 708

19.3.2　多目標問題的效用函數 712

19.3.3　模型折扣 713

19.4　評估DLA策略 713

19.4.1　在模擬器中評估策略 714

19.4.2　評估風險調整策略 715

19.4.3　在現場評估策略 716

19.4.4　調整直接前瞻策略 716

19.5　使用DLA的原因 717

19.6　確定性前瞻 718

19.6.1　確定性前瞻：最短路徑問題 719

19.6.2　參數化前瞻策略 721

19.7　隨機前瞻策略簡介 722

19.7.1　前瞻PFA 722

19.7.2　前瞻CFA 723

19.7.3　前瞻模型的前瞻VFA 724

19.7.4　前瞻模型的前瞻DLA 724

19.7.5　討論 725

19.8　離散決策的蒙特卡洛樹搜索 725

19.8.1　基本思路 725

19.8.2　蒙特卡洛樹搜索的步驟 726

19.8.3　討論 729

19.8.4　樂觀蒙特卡洛樹搜索 731

19.9　向量決策的兩階段隨機規劃* 732

19.9.1　基本兩階段隨機規劃 732

19.9.2　序貫問題的兩階段近似 734

19.9.3　討論 736

19.10　對DLA策略的評論 736

19.11　參考文獻註釋 737

練習 739

參考文獻 741

第Ⅵ部分　多智能體系統

第20章　多智能體建模與學習 744

20.1　多智能體系統概述 745

20.1.1　多智能體系統維度 745

20.1.2　通信 746

20.1.3　多智能體系統建模 747

20.1.4　控制架構 750

20.2　學習問題——流感緩解 751

20.2.1　模型1：靜態模型 751

20.2.2　流感模型的變體 752

20.2.3　雙智能體學習模型 755

20.2.4　雙智能體模型的轉移函數 757

20.2.5　流感問題的策略設計 758

20.3　POMDP角度* 762

20.4　雙智能體報童問題 764

20.5　多個獨立智能體——HVAC控制器模型 768

20.5.1　建模 768

20.5.2　設計策略 769

20.6　合作智能體——空間分布血液管理問題 771

20.7　結束語 773

20.8　有效的原因 774

20.9　參考文獻註釋 775

練習 776

參考文獻 780

強化學習與隨機優化：序貫決策的通用框架

[美] 沃倫·B. 鮑威爾（Warren B. Powell）著 郭濤 譯

商品描述

作者簡介

目錄大綱

類似商品

[美] 沃倫·B. 鮑威爾（Warren B. Powell）著郭濤譯