強化學習與隨機優化:序貫決策的通用框架
[美] 沃倫·B. 鮑威爾(Warren B. Powell)著 郭濤 譯
- 出版商: 清華大學
- 出版日期: 2025-09-01
- 售價: $1,536
- 語言: 簡體中文
- 頁數: 780
- ISBN: 7302697140
- ISBN-13: 9787302697145
-
相關分類:
Reinforcement
- 此書翻譯自: Reinforcement Learning and Stochastic Optimization: A Unified Framework for Sequential Decisions
下單後立即進貨 (約4週~6週)
商品描述
"由“決策、信息、決策、信息”組成的序貫決策問題無處不在,幾乎涵蓋了人類的所有活動,包括商業應用、衛生(個人健康、公共衛生和醫療決策)、能源、科學、各工程領域、金融和電子商務等。應用的多樣性吸引了至少15個不同研究領域的關註,使用了8種不同的符號系統,產生了大量的分析工具。而其弊端是,由某一領域開發的強大工具可能不為其他領域所知。 本書提供了一個可以借助5個核心組件(狀態變量、決策變量、外部信息變量、轉移函數和目標函數)對任何序貫決策問題進行建模的通用框架;強調了可能影響任何模型的12種不確定性,並將做決策的各種方法(稱為策略)歸納為4個基本類別,涵蓋學術文獻中提出的或實踐中使用的所有方法。 本書是一本探討如何對不同方法進行均衡處理,以便建模和解決序貫決策問題的開創性圖書,承襲了大多數聚焦機器學習、優化和模擬的書籍的風格。本書專為具有概率和統計背景知識並對建模和應用程序感興趣的讀者而設計。線性規劃有時用於特定的問題類型。本書專為剛接觸這一領域的讀者以及對不確定優化有一定了解的讀者而著。 本書提及了100多種不同應用,包括純學習問題、動態資源分配問題、一般狀態相關問題和混合學習/資源分配問題(如COVID-19全球流行期間出現的問題)。全書共有370個練習,分為7組,包括復習問題、建模問題、計算練習、求解問題、理論問題、編程練習和讀者在本書伊始選擇的“每日一問”,且“每日一問”為本書其余問題的基礎。"
作者簡介
沃倫·B. 鮑威爾博士是普林斯頓大學(Princeton University)運籌學與金融工程榮譽退休教授,在該校任教39年。他是CASTLE實驗室的創始人兼主任,該實驗室作為一個研究單位,與行業夥伴合作,檢驗運籌學研究中發現的新想法。他指導過70名研究生和博士後,與他們合著了250多篇論文。他目前是Optimal Dynamics的首席分析官,Optimal Dynamics是一家實驗室分支機構,負責將他的研究結果引入行業內。
目錄大綱
目錄
第Ⅰ部分 導 論
第1章 序貫決策問題 3
1.1 目標讀者 6
1.2 序貫決策問題領域 6
1.3 通用建模框架 8
1.4 序貫決策問題的策略設計 11
1.4.1 策略搜索 12
1.4.2 基於前瞻近似的策略 13
1.4.3 混合和匹配 14
1.4.4 4類的最優性 14
1.4.5 概述 14
1.5 學習 15
1.6 主題 16
1.6.1 混合學習和優化 16
1.6.2 將機器學習橋接到序貫決策 16
1.6.3 從確定性優化到隨機優化 17
1.6.4 從單個智能體到多個智能體 19
1.7 建模方法 20
1.8 如何閱讀本書 21
1.8.1 主題編排 21
1.8.2 如何閱讀每一章 23
1.8.3 練習分類 24
1.9 參考文獻註釋 25
練習 25
參考文獻 28
第2章 典型問題及其應用 29
2.1 典型問題 29
2.1.1 隨機搜索——基於導數和無導數 30
2.1.2 決策樹 32
2.1.3 馬爾可夫決策過程 33
2.1.4 最優控制 35
2.1.5 近似動態規劃 37
2.1.6 強化學習 37
2.1.7 最優停止 39
2.1.8 隨機規劃 41
2.1.9 多臂老虎機問題 42
2.1.10 模擬優化 44
2.1.11 主動學習 44
2.1.12 機會約束規劃 45
2.1.13 模型預測控制 45
2.1.14 魯棒優化 46
2.2 序貫決策問題的通用建模框架 47
2.2.1 序貫決策問題的通用模型 47
2.2.2 緊湊型建模 49
2.2.3 MDP/RL與最優控制建模框架 50
2.3 應用 51
2.3.1 報童問題 51
2.3.2 庫存/儲存問題 53
2.3.3 最短路徑問題 55
2.3.4 一些車隊管理問題 57
2.3.5 定價 59
2.3.6 醫療決策 59
2.3.7 科學探索 60
2.3.8 機器學習與序貫決策問題 61
2.4 參考文獻註釋 62
練習 66
參考文獻 68
第3章 在線學習 69
3.1 序貫決策的機器學習 69
3.1.1 隨機優化中的觀察和數據 70
3.1.2 索引輸入xn和響應yn+1 70
3.1.3 正在學習的函數 71
3.1.4 序貫學習:從很少的數據到更多的數據 72
3.1.5 近似策略 72
3.1.6 從數據分析到決策分析 74
3.1.7 批量學習與在線學習 75
3.2 使用指數平滑的自適應學習 75
3.3 使用頻率更新的查找表 76
3.4 使用貝葉斯更新的查找表 77
3.4.1 獨立信念的更新公式 77
3.4.2 相關信念的更新 78
3.4.3 高斯過程回歸 81
3.5 計算偏差和方差* 82
3.6 查找表和聚合* 84
3.6.1 分層聚合 84
3.6.2 不同聚合水平的估計 86
3.6.3 組合多個聚合級別 89
3.7 線性參數模型 91
3.7.1 線性回歸 92
3.7.2 稀疏加性模型和Lasso 93
3.8 線性模型的遞歸最小二乘法 94
3.8.1 平穩數據的遞歸最小二乘法 95
3.8.2 非平穩數據的遞歸最小二乘法* 96
3.8.3 使用多次觀察的遞歸估計* 97
3.9 非線性參數模型 98
3.9.1 最大似然估計 98
3.9.2 采樣信念模型 99
3.9.3 神經網絡——參數* 100
3.9.4 神經網絡的局限性 104
3.10 非參數模型* 105
3.10.1 k-最近鄰 106
3.10.2 內核回歸 106
3.10.3 局部多項式回歸 108
3.10.4 深度神經網絡 108
3.10.5 支持向量機 109
3.10.6 索引函數、樹結構和聚類 110
3.10.7 非參數模型評註 111
3.11 非平穩學習* 112
3.11.1 非平穩學習I——鞅真理 112
3.11.2 非平穩學習II——瞬時真理 113
3.11.3 學習過程 113
3.12 維數災難 114
3.13 自適應學習中的近似架構設計 116
3.14 為什麼有效** 117
3.14.1 遞歸估計公式的推導 117
3.14.2 謝爾曼-莫裏森更新公式 119
3.14.3 分層估計中的相關性 120
3.14.4 命題3.14.1的證明 122
3.15 參考文獻註釋 124
練習 125
參考文獻 128
第4章 隨機搜索簡介 129
4.1 基本隨機優化問題闡釋 130
4.2 確定性方法 133
4.2.1 “隨機”最短路徑問題 133
4.2.2 具有已知分布的報童問題 133
4.2.3 機會約束優化 134
4.2.4 最優控制 134
4.2.5 離散馬爾可夫決策過程 135
4.2.6 備註 136
4.3 采樣模型 136
4.3.1 建立采樣模型 137
4.3.2 收斂性 139
4.3.3 創建采樣模型 140
4.3.4 分解策略* 142
4.4 自適應學習算法 143
4.4.1 建模自適應學習問題 143
4.4.2 在線與離線的應用 144
4.4.3 用於學習的目標函數 145
4.4.4 設計策略 148
4.5 小結 148
4.6 參考文獻註釋 149
練習 150
參考文獻 154
第Ⅱ部分 隨機搜索
第5章 基於導數的隨機搜索 156
5.1 一些示例應用程序 158
5.2 建模不確定性 160
5.2.1 訓練不確定性160
5.2.2 模型不確定性S0 160
5.2.3 測試不確定性 161
5.2.4 策略評估 162
5.2.5 結束語 162
5.3 隨機梯度法 162
5.3.1 隨機梯度算法 163
5.3.2 步長簡介 164
5.3.3 評估隨機梯度算法 165
5.3.4 符號註釋 166
5.4 梯度樣式 166
5.4.1 梯度平滑 166
5.4.2 二階方法 167
5.4.3 有限差分 168
5.4.4 SPSA 169
5.4.5 約束問題 170
5.5 神經網絡參數優化* 171
5.5.1 計算梯度 172
5.5.2 隨機梯度算法 173
5.6 作為序貫決策問題的隨機梯度算法 174
5.7 實證問題 175
5.8 瞬態問題* 176
5.9 理論性能* 176
5.10 為什麼有效 177
5.10.1 概率論基礎知識 177
5.10.2 一個舊證明* 178
5.10.3 更現代的證明** 181
5.11 參考文獻註釋 186
練習 187
參考文獻 191
第6章 步長策略 192
6.1 確定性步長策略 194
6.1.1 收斂性 194
6.1.2 確定性策略集錦 196
6.2 自適應步長策略 199
6.2.1 自適應步長的情況 200
6.2.2 收斂條件 200
6.2.3 隨機策略集錦 201
6.2.4 實驗筆記 204
6.3 最優步長策略* 204
6.3.1 平穩數據的最佳步長 205
6.3.2 非平穩數據的最佳步長1 207
6.3.3 非平穩數據的最佳步長2 208
6.4 近似值疊代的最佳步長* 212
6.5 收斂 214
6.6 如何選擇步長策略 214
6.7 為什麼有效* 216
6.8 參考文獻註釋 218
練習 218
參考文獻 222
第7章 無導數隨機搜索 223
7.1 無導數隨機搜索概述 225
7.1.1 應用和時間尺度 225
7.1.2 無導數隨機搜索領域 226
7.1.3 多臂老虎機故事 226
7.1.4 從被動學習到主動學習再到老虎機問題 228
7.2 無導數隨機搜索建模 229
7.2.1 通用模型 229
7.2.2 示例:優化制造過程 231
7.2.3 主要問題類別 232
7.3 設計策略 232
7.4 策略函數近似 235
7.5 成本函數近似 236
7.6 基於價值函數近似的策略 238
7.6.1 最優策略 239
7.6.2 貝塔-伯努利信念模型 240
7.6.3 後向近似動態規劃 241
7.6.4 穩態學習的Gittins指數* 243
7.7 基於直接前瞻模型的策略 247
7.7.1 何時需要前瞻策略 247
7.7.2 單周期前瞻策略 248
7.7.3 有約束的多周期前瞻 250
7.7.4 多周期確定性前瞻 252
7.7.5 多周期隨機前瞻策略 253
7.7.6 混合直接前瞻 256
7.8 知識梯度(續)* 257
7.8.1 信念模型 257
7.8.2 使最終回報最大化的知識梯度 258
7.8.3 累積回報最大化的知識梯度 262
7.8.4 采樣信念模型的知識梯度* 263
7.8.5 相關信念的知識梯度 267
7.9 批量學習 272
7.10 模擬優化* 273
7.10.1 無差異區域算法 273
7.10.2 最優計算預算分配 274
7.11 評估策略* 276
7.11.1 備選方案性能指標* 276
7.11.2 最優視角* 281
7.12 設計策略 283
7.12.1 策略的特點 283
7.12.2 縮放效果 284
7.12.3 調整 285
7.13 擴展* 286
7.13.1 非平穩環境中的學習 286
7.13.2 設計策略的策略 287
7.13.3 瞬態學習模型 288
7.13.4 瞬態問題的知識梯度 288
7.13.5 使用大型或連續選擇集學習 289
7.13.6 利用外部狀態信息學習——上下文老虎機問題 291
7.13.7 狀態相關問題與狀態無關問題 293
7.14 參考文獻註釋 294
練習 296
參考文獻 304
第Ⅲ部分 狀態相關問題
第8章 狀態相關的應用 307
8.1 圖問題 308
8.1.1 隨機最短路徑問題 309
8.1.2 漂泊的貨車司機 309
8.1.3 變壓器更換問題 310
8.1.4 資產評估 311
8.2 庫存問題 313
8.2.1 基本庫存問題 313
8.2.2 進階庫存問題 314
8.2.3 滯後資產收購問題 315
8.2.4 批量補貨問題 316
8.3 復雜的資源配置問題 318
8.3.1 動態分配問題 318
8.3.2 血液管理問題 321
8.4 狀態相關的學習問題 326
8.4.1 醫療決策 327
8.4.2 實驗室實驗 327
8.4.3 廣告點擊競價 328
8.4.4 信息收集最短路徑問題 328
8.5 問題類序列 329
8.6 參考文獻註釋 330
練習 330
參考文獻 333
第9章 序貫決策問題建模 334
9.1 簡單建模 337
9.2 符號風格 340
9.3 時間建模 342
9.4 系統的狀態 344
9.4.1 定義狀態變量 344
9.4.2 系統的三種狀態 347
9.4.3 初始狀態與後續狀態“” 349
9.4.4 滯後狀態變量* 350
9.4.5 決策後狀態變量* 351
9.4.6 最短路徑圖解 353
9.4.7 信念狀態* 354
9.4.8 潛在變量* 355
9.4.9 滾動預測* 356
9.4.10 平面與因子狀態表示* 357
9.4.11 程序員對狀態變量的看法 357
9.5 建模決策 358
9.5.1 決策類型 359
9.5.2 初始決策與後續決策“” 360
9.5.3 戰略、戰術和執行決策 360
9.5.4 約束 361
9.5.5 策略介紹 362
9.6 外生信息過程 362
9.6.1 信息過程的基本符號 362
9.6.2 結果和場景 364
9.6.3 滯後的信息過程* 365
9.6.4 信息過程模型* 366
9.6.5 監督過程* 368
9.7 轉移函數 368
9.7.1 通用模型 369
9.7.2 無模型動態規劃 370
9.7.3 外生轉移 370
9.8 目標函數 371
9.8.1 性能指標 371
9.8.2 優化策略 372
9.8.3 最優策略對的依賴性 372
9.8.4 狀態相關的變量 373
9.8.5 不確定算子 374
9.9 示例:能量儲存模型 375
9.9.1 使用時間序列價格模型 376
9.9.2 使用被動學習 376
9.9.3 使用主動學習 377
9.9.4 使用滾動預測 377
9.10 基本模型和前瞻模型 378
9.11 問題的分類* 379
9.12 策略評估* 381
9.13 高級概率建模概念** 383
9.13.1 信息的測度論視角** 383
9.13.2 策略和可測量性 386
9.14 展望 387
9.15 參考文獻註釋 388
練習 390
參考文獻 399
第10章 不確定性建模 400
10.1 不確定性來源 401
10.1.1 觀察的誤差 402
10.1.2 外生的不確定性 403
10.1.3 預測的不確定性 404
10.1.4 推斷(或診斷)的不確定性 405
10.1.5 實驗的可變性 406
10.1.6 模型的不確定性 407
10.1.7 轉移的不確定性 408
10.1.8 控制/實現的不確定性 409
10.1.9 通信誤差和偏差 409
10.1.10 算法的不穩定性 409
10.1.11 目標的不確定性 410
10.1.12 政治/監管的不確定性 410
10.1.13 討論 411
10.2 建模案例研究:COVID-19疫情 411
10.3 隨機建模 412
10.3.1 外生信息采樣 412
10.3.2 分布類型 413
10.3.3 建模樣本路徑 413
10.3.4 狀態動作相關過程 414
10.3.5 相關性建模 415
10.4 蒙特卡洛模擬 416
10.4.1 生成均勻分布[0,1]隨機變量 416
10.4.2 均勻和正態隨機變量 417
10.4.3 從逆累積分布生成隨機變量 419
10.4.4 分位數分布的逆累積 420
10.4.5 不確定參數分布 420
10.5 案例研究:電價建模 422
10.5.1 均值回歸 423
10.5.2 跳躍—擴散模型 423
10.5.3 分位數分布 424
10.5.4 機制轉變 424
10.5.5 交叉時間 425
10.6 采樣與采樣模型 426
10.6.1 疊代采樣:一種隨機梯度算法 426
10.6.2 靜態采樣:求解一個采樣模型 427
10.6.3 貝葉斯更新采樣表示 427
10.7 結束語 428
10.8 參考文獻註釋 428
練習 429
參考文獻 431
第11章 策略設計 432
11.1 從優化到機器學習再到序貫決策問題 433
11.2 策略類別 434
11.3 策略函數近似 437
11.4 成本函數近似 439
11.5 價值函數近似 440
11.6 直接前瞻近似 441
11.6.1 基本理念 441
11.6.2 前瞻問題建模 443
11.6.3 策略中的策略 444
11.7 混合策略 445
11.7.1 成本函數近似與策略函數近似 445
11.7.2 具有價值函數近似的前瞻策略 446
11.7.3 具有成本函數近似的前瞻策略 447
11.7.4 具有卷展欄啟發式和查找表策略的樹搜索 447
11.7.5 兼具策略函數近似的價值函數近似 447
11.7.6 使用ADP和策略搜索擬合價值函數 448
11.8 隨機策略 449
11.9 示例:重新審視儲能模型 450
11.9.1 策略函數近似 450
11.9.2 成本函數近似 450
11.9.3 價值函數近似 451
11.9.4 確定性前瞻 451
11.9.5 混合前瞻—成本函數近似 451
11.9.6 實驗測試 451
11.10 選擇策略類 452
11.10.1 策略類 453
11.10.2 策略復雜性——計算權衡 456
11.10.3 篩選問題 458
11.11 策略評估 459
11.12 參數調整 460
11.12.1 軟問題 461
11.12.2 跨策略類搜索 462
11.13 參考文獻註釋 463
練習 463
參考文獻 466
第Ⅳ部分 策略搜索
第12章 策略函數近似和策略搜索 469
12.1 作為序貫決策問題的策略搜索 470
12.2 策略函數近似的分類 471
12.2.1 查找表策略 472
12.2.2 離散動作的玻爾茲曼策略 472
12.2.3 線性決策規則 473
12.2.4 單調策略 473
12.2.5 非線性策略 474
12.2.6 非參數/局部線性策略 475
12.2.7 上下文策略 476
12.3 問題特征 476
12.4 策略查詢的類型 477
12.5 基於數值導數的策略搜索 479
12.6 無導數策略搜索方法 480
12.6.1 信念模型 480
12.6.2 通過擾動PFA學習 481
12.6.3 學習CFA 483
12.6.4 使用知識梯度的DLA 484
12.6.5 說明 486
12.7 連續序貫問題的精確導數* 486
12.8 離散動態規劃的精確導數** 487
12.8.1 隨機策略 488
12.8.2 目標函數 489
12.8.3 策略梯度定理 489
12.8.4 計算策略梯度 490
12.9 監督學習 491
12.10 有效的原因 493
12.11 參考文獻註釋 495
練習 496
參考文獻 501
第13章 成本函數近似 502
13.1 參數CFA的一般公式 504
13.2 目標修正的CFA 504
13.2.1 線性成本函數修正 504
13.2.2 動態分配問題的CFA 505
13.2.3 動態最短路徑 506
13.2.4 動態交易策略 509
13.2.5 討論 511
13.3 約束修正的CFA 511
13.3.1 約束修正CFA的通用公式 512
13.3.2 血液管理問題 513
13.3.3 滾動預測的儲能示例 514
13.4 參考文獻註釋 520
練習 520
參考文獻 522
第Ⅴ部分 前瞻策略
第14章 精確動態規劃 527
14.1 離散動態規劃 528
14.2 最優方程 529
14.2.1 貝爾曼方程 530
14.2.2 計算轉移矩陣 533
14.2.3 隨機貢獻 533
14.2.4 使用算子符號的貝爾曼方程* 534
14.3 有限時域問題 535
14.4 具有精確解的連續問題 537
14.4.1 賭博問題 537
14.4.2 持續預算問題 539
14.5 無限時域問題* 540
14.6 無限時域問題的值疊代* 542
14.6.1 高斯-塞德爾變體 543
14.6.2 相對值疊代 543
14.6.3 收斂界限和速度 544
14.7 無限時域問題的策略疊代* 546
14.8 混合值—策略疊代* 548
14.9 平均回報動態規劃* 549
14.10 動態規劃的線性規劃方法** 550
14.11 線性二次調節 550
14.12 有效的原因** 552
14.12.1 最優方程 552
14.12.2 值疊代的收斂性 556
14.12.3 值疊代單調性 560
14.12.4 從值疊代中界定誤差 561
14.12.5 隨機化策略 562
14.13 參考文獻註釋 563
練習 563
參考文獻 570
第15章 後向近似動態規劃 571
15.1 有限時域問題的後向近似動態規劃 572
15.1.1 準備工作 572
15.1.2 使用查找表的後向ADP 574
15.1.3 具有連續近似的後向ADP算法 575
15.2 無限時域問題的擬合值疊代 578
15.3 價值函數近似策略 579
15.3.1 線性模型 579
15.3.2 單調函數 580
15.3.3 其他近似模型 582
15.4 計算觀察 582
15.4.1 後向ADP的實驗基準 582
15.4.2 計算註意事項 586
15.5 參考文獻註釋 586
練習 587
參考文獻 590
第16章 前向ADP I:策略價值 591
16.1 對策略價值進行采樣 592
16.1.1 有限時域問題的直接策略評估 592
16.1.2 無限時域問題的策略評估 593
16.1.3 時間差分更新 595
16.1.4 TD(𝜆) 596
16.1.5 TD(0)和近似值疊代 597
16.1.6 無限時域問題的TD學習 598
16.2 隨機近似方法 600
16.3 使用線性模型的貝爾曼方程* 601
16.3.1 基於矩陣的推導** 602
16.3.2 基於模擬的實現 604
16.3.3 最小二乘時間差分學習 604
16.3.4 最小二乘法策略評估 605
16.4 使用單一狀態分析TD(0)、LSTD和LSPE* 605
16.4.1 遞歸最小二乘法和TD(0) 606
16.4.2 LSPE 607
16.4.3 LSTD 607
16.4.4 討論 607
16.5 基於梯度的近似值疊代方法* 608
16.5.1 線性模型的近似值疊代** 608
16.5.2 線性模型的幾何視圖* 612
16.6 基於貝葉斯學習的價值函數近似* 613
16.6.1 最小化無限時域問題的偏差 614
16.6.2 具有相關信念的查找表 614
16.6.3 參數模型 615
16.6.4 創建先驗 615
16.7 學習算法和步長 616
16.7.1 最小二乘時間差分 616
16.7.2 最小二乘法策略評估 617
16.7.3 遞歸最小二乘法 617
16.7.4 近似值疊代的1/n收斂界 618
16.7.5 討論 619
16.8 參考文獻註釋 620
練習 621
參考文獻 623
第17章 前向ADP II:策略優化 624
17.1 算法策略概述 625
17.2 使用查找表的近似值疊代和Q學習 627
17.2.1 使用決策前狀態變量的值疊代 627
17.2.2 Q學習 628
17.2.3 使用決策後狀態變量的值疊代 630
17.2.4 使用反向傳播的值疊代 632
17.3 學習方式 635
17.3.1 離線學習 635
17.3.2 從離線到在線 636
17.3.3 評估離線學習策略和在線學習策略 637
17.3.4 前瞻策略 638
17.4 使用線性模型的近似值疊代 638
17.5 在線策略學習與離線策略學習以及探索—利用問題 640
17.5.1 術語 641
17.5.2 使用查找表學習 641
17.5.3 使用廣義信念模型學習 642
17.6 應用 644
17.6.1 美國期權定價 644
17.6.2 逆向井字棋 647
17.6.3 確定性問題的近似動態規劃 648
17.7 近似策略疊代 648
17.7.1 使用查找表的有限時域問題 649
17.7.2 使用線性模型的有限時域問題 650
17.7.3 使用線性模型求解無限時域問題的LSTD 651
17.8 演員—評論家範式 653
17.9 最大算子的統計偏差* 655
17.10 使用線性模型的線性規劃方法* 657
17.11 穩態應用的有限時域近似 660
17.12 參考文獻註釋 661
練習 662
參考文獻 666
第18章 前向ADP III:凸性資源分配問題 667
18.1 資源分配問題 669
18.1.1 報童問題 669
18.1.2 兩階段資源分配問題 671
18.1.3 一個通用多周期資源分配模型* 672
18.2 價值與邊際價值 674
18.3 標量函數的分段線性近似 675
18.3.1 調平算法 676
18.3.2 CAVE算法 677
18.4 回歸方法 678
18.5 可分的分段線性近似 680
18.6 非可分近似的Benders分解** 682
18.6.1 兩階段問題的Benders分解 682
18.6.2 具有正則化的Benders的漸近分析** 686
18.6.3 正則化Benders 688
18.7 高維應用的線性近似 689
18.8 具有外生信息狀態的資源分配 690
18.9 結束語 691
18.10 參考文獻註釋 691
練習 693
參考文獻 697
第19章 直接前瞻策略 698
19.1 使用前瞻模型的最優策略 700
19.2 創建近似前瞻模型 703
19.2.1 前瞻模型建模 704
19.2.2 近似前瞻模型策略 704
19.3 前瞻模型中的修改目標 708
19.3.1 風險管理 708
19.3.2 多目標問題的效用函數 712
19.3.3 模型折扣 713
19.4 評估DLA策略 713
19.4.1 在模擬器中評估策略 714
19.4.2 評估風險調整策略 715
19.4.3 在現場評估策略 716
19.4.4 調整直接前瞻策略 716
19.5 使用DLA的原因 717
19.6 確定性前瞻 718
19.6.1 確定性前瞻:最短路徑問題 719
19.6.2 參數化前瞻策略 721
19.7 隨機前瞻策略簡介 722
19.7.1 前瞻PFA 722
19.7.2 前瞻CFA 723
19.7.3 前瞻模型的前瞻VFA 724
19.7.4 前瞻模型的前瞻DLA 724
19.7.5 討論 725
19.8 離散決策的蒙特卡洛樹搜索 725
19.8.1 基本思路 725
19.8.2 蒙特卡洛樹搜索的步驟 726
19.8.3 討論 729
19.8.4 樂觀蒙特卡洛樹搜索 731
19.9 向量決策的兩階段隨機規劃* 732
19.9.1 基本兩階段隨機規劃 732
19.9.2 序貫問題的兩階段近似 734
19.9.3 討論 736
19.10 對DLA策略的評論 736
19.11 參考文獻註釋 737
練習 739
參考文獻 741
第Ⅵ部分 多智能體系統
第20章 多智能體建模與學習 744
20.1 多智能體系統概述 745
20.1.1 多智能體系統維度 745
20.1.2 通信 746
20.1.3 多智能體系統建模 747
20.1.4 控制架構 750
20.2 學習問題——流感緩解 751
20.2.1 模型1:靜態模型 751
20.2.2 流感模型的變體 752
20.2.3 雙智能體學習模型 755
20.2.4 雙智能體模型的轉移函數 757
20.2.5 流感問題的策略設計 758
20.3 POMDP角度* 762
20.4 雙智能體報童問題 764
20.5 多個獨立智能體——HVAC控制器模型 768
20.5.1 建模 768
20.5.2 設計策略 769
20.6 合作智能體——空間分布血液管理問題 771
20.7 結束語 773
20.8 有效的原因 774
20.9 參考文獻註釋 775
練習 776
參考文獻 780



