信息物理系統強化學習:網絡安全示例 Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies

Chong Li 盧苗苗,計湘婷,何源,席瑞,金夢 譯

商品描述

本書研究的靈感來自於近期的強化學習(RL)和信息物理系統(CPS)領域的發展。
RL植根於行為心理學,是機器學習的主要分支之一。
不同於其他機器學習算法(如監督學習和非監督學習),
RL的關鍵特徵是其獨特的學習範式,即試錯。
與深度神經網絡相結合,深度RL變得如此強大,
以至於許多複雜的系統可以被人工智能智能體在超人的水平上自動管理。
另一方面,CPS被設想在不久的將來給我們的社會帶來革命性的變化。這些例子包括新興的智能建築、智能交通和電網。

目錄大綱

Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies
出版者的話
譯者序
前言
作者簡介
第一部分 介紹
第1章 強化學習概述 2
1.1 強化學習綜述 2
1.1.1 引言 2
1.1.2 與其他機器學習方法的比較 4
1.1.3 強化學習示例 6
1.1.4 強化學習應用 7
1.2 強化學習的發展歷史 9
1.2.1 傳統的強化學習 9
1.2.2 深度強化學習 11
1.3 強化學習的仿真工具 12
1.4 本章小結 13

第2章 信息物理系統和網絡安全概述 14
2.1 引言 14
2.2 信息物理系統研究示例 16
2.2.1 資源分配 16
2.2.2 數據傳輸與管理 18
2.2.3 能源控制 18
2.2.4 基於模型的軟件設計 19
2.3 網絡安全威脅 20
2.3.1 網絡安全的對手 20
2.3.2 網絡安全的目標 21
2.4 本章小結 26
2.5 練習 26

第二部分 強化學習在信息物理系統中的應用
第3章 強化學習問題 30
3.1 多臂賭博機問題 30
3.1.1 ε-greedy算法 33
3.1.2 softmax算法 35
3.1.3 UCB算法 36
3.2 上下文賭博機問題 37
3.3 完整的強化學習問題 39
3.3.1 強化學習的要素 40
3.3.2 馬爾可夫決策過程介紹 41
3.3.3 值函數 42
3.4 本章小結 45
3.5 練習 45

第4章 基於模型的強化學習 49
4.1 引言 49
4.2 動態規劃 51
4.2.1 策略迭代法 52
4.2.2 價值迭代法 55
4.2.3 異步動態規劃 56
4.3 部分可觀察馬爾可夫決策過程 58
4.4 連續馬爾可夫決策過程 61
4.4.1 惰性近似 61
4.4.2 函數近似 62
4.5 本章小結 63
4.6 練習 64

第5章 無模型強化學習 66
5.1 引言 66
5.2 強化學習預測 66
5.2.1 蒙特卡羅學習 66
5.2.2 時序差分學習 69
5.3 強化學習控制 71
5.3.1 蒙特卡羅控制 71
5.3.2 基於時序差分的控制 72
5.3.3 策略梯度 77
5.3.4 actor-critic 81
5.4 高級算法 84
5.4.1 期望Sarsa 84
5.4.2 雙Q-learning 85
5.5 本章小結 85
5.6 練習 86

第6章 深度強化學習 90
6.1 引言 90
6.2 深度神經網絡 90
6.2.1 卷積神經網絡 92
6.2.2 循環神經網絡 94
6.3 深度學習在值函數上的應用 95
6.4 深度學習在策略函數上的應用 100
6.4.1 DDPG 102
6.4.2 A3C 104
6.5 深度學習在強化學習模型上的應用 107
6.6 深度強化學習計算效率 108
6.7 本章小結 109
6.8 練習 109

第三部分 案例研究
第7章 強化學習與網絡安全 112
7.1 傳統的網絡安全方法 112
7.1.1 傳統的網絡安全技術 112
7.1.2 新興網絡安全威脅 113
7.2 強化學習在網絡安全中的應用 114
7.2.1 移動群智感知中的虛假感知攻擊 114
7.2.2 認知無線電網絡中的安全強化 115
7.2.3 移動邊緣計算中的安全問題 117
7.2.4 網絡安全分析師的動態調度 118
7.3 本章小結 119
7.4 練習 119

第8章 案例研究:智能電網中的在線網絡攻擊檢測 120
8.1 引言 120
8.2 系統模型和狀態估計 122
8.2.1 系統模型 122
8.2.2 狀態估計 123
8.3 問題描述 124
8.4 解決方案 127
8.5 仿真結果 130
8.5.1 仿真設計與參數設置 130
8.5.2 性能評估 130
8.6 本章小結 134

第9章 案例研究:擊敗中間人攻擊 135
9.1 引言 135
9.2 強化學習方法 137
9.2.1 狀態空間 137
9.2.2 行動空間 139
9.2.3 獎勵 139
9.3 實驗和結果 139
9.3.1 模型訓練 140
9.3.2 在線實驗 141
9.4 討論 143
9.4.1 基於探測器的檢測系統 143
9.4.2 運用SDN/OpenFlow使模型實用 144
9.5 本章小結 144
參考文獻 145
索引 161