深度學習的數學工程:模型背後的數學原理

[法]貝努瓦·利凱(Benoit Liquet)[澳]薩拉特·莫卡(Sarat Moka) [澳]尤尼·納紮拉西(Yoni Nazarathy)

  • 深度學習的數學工程:模型背後的數學原理-preview-1
深度學習的數學工程:模型背後的數學原理-preview-1

相關主題

商品描述

本書為讀者提供了一個全面而系統的深度學習數學框架,旨在幫助讀者深入理解深度學習的數學本質,並掌握其基礎及前沿技術。

本書共8章。第1章介紹深度學習的定義、應用、核心要素及數學符號等內容,奠定深度學習的數學與技術基礎;第2章詳解機器學習原理,包括數據處理、監督與無監督學習、線性模型、疊代優化、泛化、正則化技術等;第3章從統計學和深度學習視角解析 logistic 回歸模型,概述softmax與淺層自編碼器;第4章講解梯度下降、ADAM等優化算法及自動微分,並概述一階與二階方法;第5章探討前饋深度神經網絡的表達力、激活函數、反向傳播算法及訓練關鍵技術等內容;第6章解析卷積神經網絡的數學原理、架構,介紹經典模型及計算機視覺任務等內容;第7章聚焦序列模型、註意力機制及 Transformer 的結構與應用;第8章涵蓋生成模型、強化學習與圖神經網絡,展示深度學習的多樣化應用方向。

本書適合機器學習和深度學習等領域的專業人員參考閱讀, 也適合對深度學習數學框架感興趣的初學者和研究者閱讀。

作者簡介

貝努瓦·利凱(Benoit Liquet):麥考瑞大學數學與物理科學學院教授。研究方向為高維數據、大數據、組學數據、模型選擇、降維與半參數模型、多狀態模型、生存模型和多重檢驗。

薩拉特·莫卡(Sarat Moka):悉尼新南威爾士大學數學與統計學院講師,兼任麥考瑞大學數學與物理科學學院榮譽研究員。研究方向為計算統計學、應用概率、機器學習和深度學習。

尤尼·納紮拉西(Yoni Nazarathy):昆士蘭大學數學與物理學院副教授。研究方向為機器學習、應用概率、統計學、運籌學、仿真、科學計算、控制論、排隊論、調度和數學教育。

目錄大綱

第 1 章 引言 1

11 深度學習時代 1

111 深度學習初探 2

112 超越分類 4

113 深度學習的應用領域 5

114 深度學習涉及的角色 6

12 任務和架構概覽 6

121 前饋全連接神經網絡 7

122 自編碼器 7

123 卷積神經網絡 9

124 循環神經網絡、長短期記憶網絡和門控循環單元 9

125 Transformer 和註意力機制 9

126 擴散模型和其他變分自編碼器 10

127 生成對抗網絡 10

128 深度強化學習 10

129 圖神經網絡 11

13 深度學習的核心要素 11

131 神經網絡與人造大腦 11

132 算力 13

133 大規模數據集 13

134 互聯網、軟件實踐和開源 14

14 數據 15

15 作為數學工程學科的深度學習 18

151 本書使用的數學 19

152 通過高等數學發展和研究深度學習 19

16 符號和數學背景知識 20

註釋與參考文獻 21

第 2 章 機器學習原理 23

21 機器學習的關鍵活動 23

211 數據的劃分 25

212 數據預處理 26

213 學習≈優化 27

22 監督學習 27

221 回歸和特征工程 27

222 二分類 29

223 監督學習的方法和算法 33

23 本書的核心:線性模型 34

231 線性模型的學習 34

232 其他損失函數 36

233 類別型輸入特征 37

234 多分類 38

24 基於疊代優化的學習 41

241 線性模型的學習率分析 42

242 損失景觀和輸入的標準化 43

25 泛化、正則化和驗證 45

251 未見數據上的性能 46

252 模型選擇、欠擬合和過擬合 47

253 偏差和方差分解 49

254 添加正則化項 50

255 超參數校準和交叉驗證 51

26 無監督學習概覽 53

261 k 均值聚類 53

262 基於 k 均值算法的圖像分割 55

263 無監督學習中的矩陣 56

264 主成分分析 57

265 PCA 的推導 58

266 通過 SVD 的 PCA 59

267 SVD 用於壓縮 60

註釋與參考文獻 61

第 3 章 簡單神經網絡 64

31 統計中的 logistic 回歸模型 64

311 模型 65

312 logistic 分布簡介 65

313 極大似然估計 66

314 二元交叉熵損失 67

315 預測概率和參數可解釋性 68

316 基於 logistic 回歸模型的分類器是線性分類器 69

32 logistic回歸模型是一個淺層神經網絡 71

321 logistic 回歸模型是一個人工神經元 71

322 logistic 回歸模型的訓練 72

323 交叉熵損失的一些優點 73

33 多分類問題與 softmax 74

331 模型 74

332 softmax 函數和作為淺層神經網絡的多項式回歸模型 76

333 似然和交叉熵 77

334 導數和學習 79

335 多項式回歸模型的分類產生凸多面體決策區域 80

34 超越線性決策邊界 82

341 sigmoid 響應函數的增強 82

342 多項式特征工程的一般設置 83

343 一般分類邊界 84

35 淺層自編碼器 86

351 自編碼器原理 86

352 單層自編碼器 87

353 PCA 是一種自編碼器 89

354 自編碼器作為非線性 PCA 的一種形式 91

355 應用和架構 92

註釋與參考文獻 95

第 4 章 優化算法 96

41 優化問題的形式化表述 96

411 一般設置 96

412 局部極小點和全局最小點 97

413 凸性和鞍點 98

414 深度學習中的目標函數 99

415 某些淺層神經網絡的凸性 99

416 下降方向方法的一般方法 101

42 深度學習背景下的優化 102

421 基本梯度下降法面臨的挑戰 103

422 隨機梯度下降 104

423 小批量和輪次 106

424 最小化損失是最優性能的替代指標 107

43 ADAM 算法 109

431 自適應優化和指數平滑 110

432 動量 110

433 每個分量的自適應學習率 111

434 指數平滑的偏差校正 113

435 完整 ADAM 算法 114

44 自動微分 115

441 數值微分和符號微分 115

442 可微編程概述 116

443 計算圖和前向模式自動微分 118

444 反向模式自動微分 121

45 一階方法的其他技術 123

451 Nesterov 動量和 Nadam 算法 123

452 AdaDelta 124

453 其他範數和 AdaMax 125

454 線搜索 126

455 非精確線搜索 129

46 二階方法的概念 130

461 單變量情況 131

462 多變量情況和黑塞矩陣 134

463 擬牛頓法 135

464 BFGS 和 L-BFGS 更新規則 138

註釋與參考文獻 139

第 5 章 前饋深度神經網絡 142

51 通用全連接架構 142

511 基於函數組合的模型 144

512 仿射變換與激活函數 144

513 前向傳播 145

514 具體維度示例 145

515 模型的標量視圖 146

516 跨多個樣本的向量化 146

517 模型訓練概述 147

52 神經網絡的表達力 148

521 簡單函數逼近 148

522 通用逼近定理 149

523 隱層的優勢 150

524 通過簡單模型實現特定的函數 150

525 神經網絡特征的聚焦性 152

526 深度增加帶來的表達力提升 153

53 激活函數的選擇 154

531 標量激活函數及其導數 154

532 非標量激活函數及其導數 156

54 反向傳播算法 157

541 一般遞歸模型的反向傳播 157

542 一個展開的示例 159

543 用 代替 ζ的反向傳播算法 160

544 全連接網絡的反向傳播 161

545 整個小批量的反向傳播 163

546 梯度消失和梯度爆炸 163

55 權重初始化 164

551 Xavier 初始化的推導 165

552 梯度消失或梯度爆炸值的進一步洞察 165

56 批量歸一化 166

561 每單元歸一化的思想 166

562 生產環境中的批量歸一化 167

563 批量歸一化參數的反向傳播 168

57 用 dropout 和正則化緩解過擬合 169

571 dropout 169

572 將 dropout 視為集成的近似 171

573 添加正則化項和權重衰減 172

註釋與參考文獻 173

第 6 章 卷積神經網絡 175

61 CNN 概述 175

611 濾波 176

612 VGG19 網絡 177

62 卷積運算 178

621 線性時不變系統中的卷積 178

622 概率中的卷積 179

623 多項式乘法和卷積矩陣 180

624 多維推廣 181

625 再談邊緣檢測 183

63 構建卷積層 184

631 卷積層的動機 184

632 填充、步長和擴張 187

633 多通道輸入 190

634 多通道輸出 192

64 構建 CNN 193

641 卷積層 193

642 池化層 194

643 全連接層 195

644 VGG19 再探討 196

645 1×1 卷積和全卷積網絡 197

646 dropout、批量歸一化和組歸一化 198

647 理解內部層和派生特征 199

65 Inception、ResNet 和其他標誌性架構 201

651 簡要歷史回顧 201

652 Inception 和網絡中的網絡 202

653 殘差連接 203

654 EfficientNet 模型 204

66 超越分類 205

661 CNN 與關鍵計算機視覺任務 205

662 目標定位 207

663 人臉識別、孿生網絡和三元組損失 208

註釋與參考文獻 210

第 7 章 序列模型 212

71 序列數據的模型和活動概述 212

711 序列數據的形式 213

712 涉及序列數據的任務 213

713 詞嵌入 216

72 基本循環神經網絡 217

721 一個簡單的具體示例 220

722 用隨時間反向傳播訓練 RNN 221

723 計算中的挑戰 224

724 訓練的其他方面 225

73 RNN 的擴展和改進 226

731 堆疊門和反轉門 226

732 長短期記憶模型 227

733 門控循環單元模型 230

74 編碼器-解碼器和註意力機制 231

741 用於機器翻譯的編碼器-解碼器架構 231

742 註意力機制 233

743 基於註意力機制的編碼器-解碼器 234

744 註意力權重的示例 235

745 打分函數的變體 236

746 訓練編碼器-解碼器模型 237

75 Transformer 237

751 自註意力 238

752 多頭自註意力 240

753 位置嵌入 241

754 Transformer 塊 242

755 編碼器-解碼器框架 245

756 在生產和訓練中使用編碼器-解碼器 247

註釋與參考文獻 249

第 8 章 特定架構與範式 251

81 生成式建模原理 251

811 變分自編碼器 253

812 變分自編碼器的編碼器-解碼器架構 255

813 與極大似然和 ELBO 的關系 256

814 損失函數的細節 257

815 重參數化技巧 258

82 擴散模型 259

821 層次變分自編碼器 260

822 擴散模型假設 262

823 損失函數 263

824 重參數化技巧和損失簡化 264

83 GAN 266

831 GAN 生成式建模方法 267

832 訓練 GAN 268

833 最小化 JS 散度 269

834 目標函數的變體 270

835 超越 GAN 數據生成 275

84 強化學習 277

841 馬爾可夫決策過程 278

842 貝爾曼方程、價值函數和 Q函數 281

843 貝爾曼方程的求解 282

844 Q 學習 283

845 深度強化學習 284

85 圖神經網絡 285

851 GNN 的應用 285

852 圖結構 286

853 輸入數據和任務的結構 289

854 GNN 模型的一般結構 290

855 消息傳遞方案 292

856 模型變體 293

註釋與參考文獻 296

附錄 A 多元微積分初步 299

附錄 B 交叉熵及其他對數期望 308

後記 311

最後瀏覽商品 (20)