統計學習入門

宋叢威

  • 統計學習入門-preview-1
  • 統計學習入門-preview-2
  • 統計學習入門-preview-3
統計學習入門-preview-1

相關主題

商品描述

"本書旨在為讀者提供一本全面且深入的關於統計學習的學術著作。在信息爆炸的時代,數據的價值日益凸顯,而統計學習作為數據分析和知識提取的有力工具,其重要性不言而喻。本書在彌補理論與實踐鴻溝的同時,力求達到專業數理統計學著作的規範標準。 本書分為基礎篇、模型篇和方法篇三部分。基礎篇回顧了概率論和統計學的基礎知識,並簡要介紹了統計學習的理論框架。模型篇則詳細闡述了包括線性回歸、分類、樸素 Bayes分類器、決策樹、聚類、降維、隱變量模型和時間序列與隱 Markov模型等多種統計學習模型。方法篇則聚焦於核方法、局部化方法、神經統計模型和集成方法等統計學習中的關鍵技術。在介紹經典模型和方法的同時,本書也提及重要的科技前沿。 本書不僅註重理論的嚴謹性,也強調實際應用的價值。通過具體的模型和案例分析,為讀者提供實用的指導。本書比較重視模型的結構與性質,並揭示不同模型之間的關聯。在闡述經典理論的同時,筆者還融入了自己對現有模型的獨到見解。無論是學術研究者、學生,還是從業人員、工程師,甚至是普通愛好者,本書都將是你學習統計學習的重要資源。 "

目錄大綱

 

目錄

 

第一部分基礎篇..................................................................................1

第 1章統計學回顧 .............................................................................................3 

1.1概率論基礎..............................................................................................3 

1.1.1分布與概率模型 ............................................................................3 

1.1.2聯合分布、邊緣分布、條件分布 .....................................................5 

1.2統計學基礎..............................................................................................5 

1.2.1總體與樣本 ...................................................................................6 

1.2.2統計模型的定義 ............................................................................7 

1.2.3樣本 .............................................................................................8 

1.2.4參數估計 ......................................................................................9 

1.2.5估計器與算法.............................................................................. 13 

1.2.6 Bayesian方法 ............................................................................. 13 

1.2.7統計決策 .................................................................................... 15 

1.2.8模型評估與選擇 .......................................................................... 18 

1.2.9預測與誤差 ................................................................................. 19 

1.2.10生成/模擬 ................................................................................. 24 

1.2.11時間序列................................................................................... 24 

1.3熵 ......................................................................................................... 25 

1.3.1信息熵........................................................................................ 25 

1.3.2條件熵與互信息 .......................................................................... 26 

1.3.3交叉熵與散度.............................................................................. 27 

1.4總結...................................................................................................... 28 

1.5習題...................................................................................................... 28

第 2章統計學習簡介 ........................................................................................ 31 

2.1機器學習模型 ........................................................................................ 31 

2.2統計學習模型 ........................................................................................ 33 

2.2.1變量 ........................................................................................... 33 

2.2.2屬性 ........................................................................................... 35 

2.2.3模型 ........................................................................................... 35 

2.2.4模型參數與超參數 ....................................................................... 36 

2.2.5數據與數據存儲 .......................................................................... 36 

2.2.6統計學習模型的形式化定義.......................................................... 37 

2.2.7 Bayesian統計學習模型................................................................ 40 

2.2.8統計學習決策模型 ....................................................................... 41 

2.2.9預測 ........................................................................................... 43 

2.2.10惰性模型................................................................................... 44 

2.2.11生成 ......................................................................................... 46 

2.3機器學習基本流程.................................................................................. 46 

2.3.1訓練和測試 ................................................................................. 47 

2.3.2驗證 ........................................................................................... 47 

2.3.3模型比較 .................................................................................... 47 

2.4統計學習模型分類.................................................................................. 48 

2.4.1監督學習與無監督學習 ................................................................ 48 

2.4.2回歸 (降維)和分類 (聚類) .......................................................... 48 

2.4.3半監督學習 ................................................................................. 49 

2.4.4判別模型和生成模型.................................................................... 50 

2.4.5序列模型 .................................................................................... 51 

2.5概率圖表示............................................................................................ 52 

2.6模型等價性............................................................................................ 53 

2.7總結...................................................................................................... 53 

2.8習題...................................................................................................... 54

第二部分模型篇 ...............................................................................57

第 3章線性回歸............................................................................................... 59 

3.1線性回歸模型 ........................................................................................ 59 

3.1.1一維線性回歸.............................................................................. 59 

3.1.2多維線性回歸.............................................................................. 60 

3.1.3線性模型的參數估計.................................................................... 62 

3.1.4參數的無偏估計 .......................................................................... 63 

3.1.5線性代數基本事實 ....................................................................... 63 

3.2線性模型的假設檢驗與統計報告.............................................................. 64 

3.2.1假設檢驗 .................................................................................... 65 

3.2.2預測與置信區間 .......................................................................... 67 

3.2.3屬性選擇與擬合優度.................................................................... 68 

3.2.4讀懂 statsmodels統計報告........................................................... 70 

3.3 Bayes方法 ............................................................................................ 71 

3.3.1 Bayesian線性回歸 ...................................................................... 71 

3.3.2線性回歸的增量學習.................................................................... 73 

3.3.3正則化線性回歸 .......................................................................... 73 

3.4其他話題 ............................................................................................... 75 

3.4.1廣義線性回歸.............................................................................. 75 

3.4.2線性混合模型.............................................................................. 76 

3.4.3線性回歸的疊代算法.................................................................... 77 

3.4.4非線性回歸 ................................................................................. 77 

3.4.5多項式回歸 ................................................................................. 78 

3.5總結...................................................................................................... 79 

3.6習題...................................................................................................... 80

第 4章分類 ..................................................................................................... 81 

4.1準備...................................................................................................... 82 

4.1.1判別函數 .................................................................................... 82 

4.1.2條件似然函數.............................................................................. 83 

4.2 Logistic回歸 ......................................................................................... 84 

4.2.1 0-1 Logistic回歸 ......................................................................... 84 

4.2.2替代損失函數與間隔模型 ............................................................. 87 

4.2.3多分類 Logistic回歸 ................................................................... 88 

4.2.4多分類問題替代損失函數 ............................................................. 89 

4.2.5多分類轉化為二分類.................................................................... 89 

4.3支持向量機............................................................................................ 91 

4.3.1模型構造 .................................................................................... 91 

4.3.2幾何解釋 .................................................................................... 92 

4.4分類的生成模型 ..................................................................................... 92 

4.4.1 Bayes分類器標準形式 ................................................................. 93 

4.4.2線性判別分析 (LDA) ................................................................... 94 

4.4.3二次判別分析 (QDA) .................................................................. 96 

4.4.4判別分析的正則化 ....................................................................... 97 

4.4.5 Bayesian-Bayes分類器 ................................................................ 97 

4.5其他話題 ............................................................................................... 98 

4.5.1中心分類器 ................................................................................. 98 

4.5.2無中心分類器............................................................................ 100 

4.5.3 LDA降秩 ................................................................................. 101 

4.5.4 LDA與 Logistic回歸的比較 ...................................................... 104 

4.6總結.................................................................................................... 104 

4.7習題.................................................................................................... 104

第 5章樸素 Bayes分類器 ............................................................................. 107 

5.1樸素 Bayes分類器 (NBC)基本原理...................................................... 107 

5.1.1定義與基本類型 ........................................................................ 107 

5.1.2 Categorical模型和參數估計....................................................... 108 

5.1.3 Bayesian方法 ........................................................................... 110 

5.1.4基於 NBC的增量學習 ............................................................... 110 

5.2樸素 Bayes文本分類器 ........................................................................ 110 

5.2.1詞袋/詞序列模型....................................................................... 111 

5.2.2多項式模型 ............................................................................... 113 

5.2.3 Bernoulli模型........................................................................... 114 

5.3參數形式 ............................................................................................. 115 

5.4 NBC的改進策略 ................................................................................. 115 

5.4.1加權詞袋/特征袋....................................................................... 115 

5.4.2 Hybrid模型.............................................................................. 116 

5.4.3 Complement模型...................................................................... 116 

5.4.4樸素 Bayes組合公式 ................................................................. 117 

5.4.5條件獨立性的弱化 ..................................................................... 117 

5.5總結.................................................................................................... 118 

5.6習題.................................................................................................... 118

第 6章決策樹 ................................................................................................ 120 

6.1基本統計量.......................................................................................... 120 

6.1.1熵 ............................................................................................ 120 

6.1.2信息增益 .................................................................................. 120 

6.1.3 Gini不純度與異眾比 ................................................................. 121 

6.2決策樹的結構與算法 ............................................................................ 121 

6.2.1決策樹的一般形式 ..................................................................... 122 

6.2.2離散設置下的決策樹.................................................................. 122 

6.2.3最大信息增益原則 ..................................................................... 123 

6.2.4 ID3算法................................................................................... 125 

6.2.5 C4.5算法 ................................................................................. 126 

6.2.6分類-回歸樹模型 ....................................................................... 128 

6.2.7決策樹的自頂向下推導 .............................................................. 129 

6.3決策樹的剪枝 ...................................................................................... 129 

6.3.1葉節點與路徑............................................................................ 130 

6.3.2剪枝操作 .................................................................................. 130 

6.3.3剪枝算法 .................................................................................. 132 

6.4決策樹的無監督學習 ............................................................................ 132 

6.4.1 K-means決策樹 ....................................................................... 133 

6.4.2層次聚類 .................................................................................. 133 

6.5決策樹的一般統計模型 ......................................................................... 134 

6.6其他話題 ............................................................................................. 134 

6.6.1基於多屬性的分割規則 .............................................................. 134 

6.6.2缺失數據 .................................................................................. 135 

6.6.3決策樹樁 .................................................................................. 135 

6.6.4作為集成方法的決策樹 .............................................................. 136 

6.6.5軟決策樹 .................................................................................. 136 

6.6.6決策樹的增量學習 ..................................................................... 136 

6.7總結.................................................................................................... 137 

6.8習題.................................................................................................... 137

第 7章聚類 ................................................................................................... 139 

7.1 K-means聚類 ..................................................................................... 139 

7.1.1模型與算法 ............................................................................... 140 

7.1.2模型等價形式............................................................................ 142 

7.1.3 K-means聚類的概率解釋 .......................................................... 144 

7.1.4聚類數的選擇............................................................................ 145 

7.1.5向量量化 .................................................................................. 145 

7.2 K-medoids聚類 .................................................................................. 146 

7.2.1模型與算法 ............................................................................... 146 

7.2.2等價形式 .................................................................................. 148 

7.2.3中心聚類及其無中心形式 ........................................................... 149 

7.3聚類的統計模型 ................................................................................... 150 

7.3.1 Bayes聚類................................................................................ 150 

7.3.2 Gaussian混合模型 .................................................................... 151 

7.4聚類決策模型 ...................................................................................... 153 

7.4.1聚類決策模型與算法.................................................................. 153 

7.4.2模糊 C-means聚類 ................................................................... 154 

7.5自組織映射 (SOM) .............................................................................. 155 

7.5.1 SOM算法 ................................................................................ 155 

7.5.2競爭層...................................................................................... 157 

7.5.3學習向量量化............................................................................ 157 

7.6自編碼器 ............................................................................................. 157 

7.6.1自編碼器基本概念 ..................................................................... 158 

7.6.2自監督學習 ............................................................................... 159 

7.6.3惰性自編碼器............................................................................ 160 

7.6.4概率自編碼器............................................................................ 160 

7.7聚類評估 ............................................................................................. 160 

7.7.1外部評估 .................................................................................. 161 

7.7.2內部評估 .................................................................................. 161 

7.8其他話題 ............................................................................................. 162 

7.8.1線性聚類器 ............................................................................... 162 

7.8.2原型法...................................................................................... 162 

7.8.3層次聚類 .................................................................................. 163 

7.8.4異常點檢測 ............................................................................... 164 

7.8.5半監督聚類 ............................................................................... 167 

7.9總結.................................................................................................... 169 

7.10習題 .................................................................................................. 170

第 8章降維 ................................................................................................... 172 

8.1矩陣論基礎.......................................................................................... 172 

8.1.1矩陣分解問題............................................................................ 172 

8.1.2特征值分解 (EVD).................................................................... 173 

8.1.3奇異值分解 (SVD) .................................................................... 173 

8.1.4截斷 SVD ................................................................................. 174 

8.1.5加權低秩分解............................................................................ 176 

8.1.6 SVD應用 ................................................................................. 176 

8.2主成分分析 (PCA)............................................................................... 178 

8.2.1模型定義與算法 ........................................................................ 178 

8.2.2 Karhunen-Loeve變換 ................................................................ 183 

8.2.3 PCA的幾何解釋與子流形分析................................................... 184 

8.2.4生成任務 .................................................................................. 185 

8.2.5 PCA圖像處理 .......................................................................... 185 

8.2.6概率 PCA................................................................................. 187 

8.2.7因子分析 .................................................................................. 188 

8.3獨立成分分析 (ICA) ............................................................................ 189 

8.3.1 ICA模型定義 ........................................................................... 189 

8.3.2 ICA應用 .................................................................................. 190 

8.4非負矩陣分解 (NMF)........................................................................... 191 

8.4.1模型介紹 .................................................................................. 191 

8.4.2乘法更新規則............................................................................ 192 

8.4.3 NMF圖像處理.......................................................................... 193 

8.4.4 NMF的簡單變形 ...................................................................... 194 

8.4.5缺失數據 NMF.......................................................................... 198 

8.5概率潛在語義分析 (PLSA) ................................................................... 200 

8.5.1 PLSA的兩種形式 ..................................................................... 200 

8.5.2 PLSA文本聚類......................................................................... 204 

8.5.3 PLSA的 EM算法 .................................................................... 205 

8.6降維決策模型 ...................................................................................... 206 

8.6.1降維決策模型一般形式 .............................................................. 206 

8.6.2缺失數據的降維決策模型 ........................................................... 207 

8.7其他話題 ............................................................................................. 209 

8.7.1預訓練與微調............................................................................ 209 

8.7.2框架 PCA................................................................................. 210 

8.7.3魯棒矩陣分解............................................................................ 211 

8.7.4分組 PCA................................................................................. 211 

8.7.5非負張量分解............................................................................ 213 

8.7.6有標簽數據的降維 ..................................................................... 214 

8.7.7公共隱表示 ............................................................................... 215 

8.8總結.................................................................................................... 217 

8.9習題.................................................................................................... 218

第 9章隱變量模型 ......................................................................................... 221 

9.1隱變量模型與期望-最大化 (EM)算法.................................................... 222 

9.1.1變分恒等式 ............................................................................... 222 

9.1.2 EM算法................................................................................... 226 

9.1.3廣義 EM算法 ........................................................................... 227 

9.1.4混合模型及其 EM算法.............................................................. 227 

9.2 EM算法應用案例................................................................................ 231 

9.2.1樸素 Bayes聚類器 .................................................................... 231 

9.2.2 PLSA共現模型......................................................................... 232 

9.2.3 PLSA生成模型......................................................................... 232 

9.2.4條件隱變量模型 ........................................................................ 233 

9.2.5層次模型 .................................................................................. 234 

9.2.6混合隱變量模型 ........................................................................ 234 

9.2.7概率自編碼器............................................................................ 235 

9.2.8受限 Boltzman機 ..................................................................... 236 

9.3 EM算法的變種和推廣 ......................................................................... 236 

9.3.1 Monte Carlo EM算法 ............................................................... 236 

9.3.2硬 EM算法 .............................................................................. 237 

9.3.3統計模擬方法............................................................................ 238 

9.3.4變分方法 .................................................................................. 238 

9.3.5 Bayes EM算法 ......................................................................... 242 

9.3.6極大-極小算法........................................................................... 245 

9.4高級話題 ............................................................................................. 247 

9.4.1半監督學習的 EM算法.............................................................. 247 

9.4.2遷移學習 .................................................................................. 248 

9.4.3缺失數據問題............................................................................ 249 

9.4.4異常點檢測 ............................................................................... 250 

9.4.5 Markov層次模型 ...................................................................... 251 

9.5總結.................................................................................................... 252 

9.6習題.................................................................................................... 252

第 10章時間序列與隱 Markov模型 .............................................................. 256 

10.1時間序列回顧..................................................................................... 256 

10.1.1 Markov鏈 ............................................................................. 257 

10.1.2 Markov決策模型 ................................................................... 258 

10.1.3狀態缺失 Markov鏈............................................................... 258 

10.1.4時序預測任務......................................................................... 259 

10.2有監督的 Markov模型 ....................................................................... 260 

10.2.1一般形式 ............................................................................... 260 

10.2.2 Markov模型.......................................................................... 262 

10.2.3標準 Markov模型 .................................................................. 262 

10.2.4特殊 Markov模型 .................................................................. 263 

10.2.5發射缺失 Markov模型 ........................................................... 264 

10.2.6預測與生成 ............................................................................ 264 

10.3隱 Markov模型 ................................................................................. 266 

10.3.1 HMM一般形式 ..................................................................... 266 

10.3.2 HMM的標準形式 .................................................................. 268 

10.3.3 HMM算法 ............................................................................ 269 

10.4其他話題 ........................................................................................... 276 

10.4.1動態自編碼器......................................................................... 276 

10.4.2條件 HMM ............................................................................ 276 

10.4.3雙向 Markov鏈 ..................................................................... 276 

10.4.4半監督 HMM......................................................................... 277 

10.4.5數據缺失/發射缺失 HMM ...................................................... 279 

10.4.6連續狀態模型......................................................................... 279 

10.4.7連續時間模型......................................................................... 280 

10.5總結 .................................................................................................. 280 

10.6習題 .................................................................................................. 281 

第三部分方法篇 .............................................................................283

第 11章核方法 .............................................................................................. 285 

11.1動機 .................................................................................................. 285 

11.2理論基礎 ........................................................................................... 285 

11.2.1核的概念 ............................................................................... 286 

11.2.2定義的等價性......................................................................... 287 

11.2.3核的實例和構造 ..................................................................... 290 

11.2.4核的歸一化與中心化............................................................... 292 

11.3核模型原理 ........................................................................................ 293 

11.3.1核矩陣與 Laplacian................................................................ 293 

11.3.2核技巧與核模型 ..................................................................... 294 

11.4核模型構造 ........................................................................................ 294 

11.4.1樣本內積模型......................................................................... 294 

11.4.2協方差模型 ............................................................................ 297 

11.4.3 Lagrange對偶原理................................................................. 302 

11.4.4 Gaussian過程........................................................................ 304 

11.5自適應核方法..................................................................................... 306 

11.5.1參數核................................................................................... 306 

11.5.2多核 ...................................................................................... 307 

11.5.3離散核................................................................................... 307 

11.5.4近似特征映射......................................................................... 308 

11.5.5自適應特征映射 ..................................................................... 310 

11.6其他話題 ........................................................................................... 311 

11.6.1 Laplacian與譜聚類 ................................................................ 311 

11.6.2核-惰性自編碼器 .................................................................... 312 

11.6.3核回歸惰性變換 ..................................................................... 312 

11.6.4核模型的增量學習 .................................................................. 313 

11.6.5核均值嵌入 ............................................................................ 313 

11.7總結 .................................................................................................. 314 

11.8習題 .................................................................................................. 315

第 12章局部化方法 ....................................................................................... 318 

12.1基本思路 ........................................................................................... 318 

12.2基本概念與原理 ................................................................................. 318 

12.2.1局部化核 ............................................................................... 319 

12.2.2核的基本運算......................................................................... 321 

12.2.3光滑化空間 ............................................................................ 323 

12.3局部化模型原理 ................................................................................. 324 

12.3.1核矩陣與 Laplacian................................................................ 325 

12.3.2局部決策模型......................................................................... 325 

12.3.3 Monte Carlo方法 .................................................................. 328 

12.4局部監督學習模型 .............................................................................. 328 

12.4.1監督學習常見形式 .................................................................. 328 

12.4.2局部均值 ............................................................................... 329 

12.4.3局部眾數 ............................................................................... 335 

12.4.4 K-近鄰模型 ........................................................................... 336 

12.5局部無監督學習模型........................................................................... 337 

12.5.1核密度估計 ............................................................................ 337 

12.5.2自局部均值 ............................................................................ 338 

12.5.3自局部眾數與嵌入方法 ........................................................... 343 

12.6局部時間序列模型 .............................................................................. 345 

12.6.1局部序列模型/時序 (自)局部均值........................................... 346 

12.6.2時序自局部眾數 ..................................................................... 348 

12.7局部模型實例..................................................................................... 348 

12.7.1局部線性回歸......................................................................... 348 

12.7.2局部分類器 ............................................................................ 349 

12.7.3局部中心聚類......................................................................... 349 

12.7.4局部 PCA.............................................................................. 350 

12.7.5核密度分類器......................................................................... 352 

12.8自適應局部化方法 .............................................................................. 352 

12.8.1參數核................................................................................... 353 

12.8.2多核 ...................................................................................... 354 

12.8.3多頭 ...................................................................................... 355 

12.8.4離散核................................................................................... 355 

12.8.5離散核局部均值自編碼器 ........................................................ 357 

12.8.6近似特征映射與非對稱 MDS................................................... 358 

12.8.7自適應特征映射 ..................................................................... 359 

12.9其他話題 ........................................................................................... 359 

12.9.1去噪自編碼器......................................................................... 359 

12.9.2分數模型 ............................................................................... 361 

12.9.3局部均值擴散模型 .................................................................. 362 

12.9.4局部線性嵌入......................................................................... 363 

12.9.5層次局部模型......................................................................... 363 

12.9.6非局部模型 ............................................................................ 365 

12.9.7圖論啟發-核........................................................................... 367 

12.10總結 ................................................................................................ 369 

12.11習題 ................................................................................................ 371

第 13章神經統計模型 .................................................................................... 374 

13.1神經網絡的監督學習........................................................................... 374 

13.1.1神經回歸器 ............................................................................ 375 

13.1.2神經分類器 ............................................................................ 376 

13.1.3神經網絡誤差曲線 .................................................................. 377 

13.2神經網絡無監督學習........................................................................... 377 

13.2.1確定型神經自編碼器............................................................... 378 

13.2.2神經變分自編碼器 .................................................................. 379 

13.2.3標準化流 ............................................................................... 382 

13.2.4擴散模型 ............................................................................... 384 

13.2.5自編碼器小結......................................................................... 388 

13.3神經網絡與時間序列........................................................................... 389 

13.3.1循環神經網絡......................................................................... 390 

13.3.2神經自回歸 ............................................................................ 392 

13.3.3自註意力機制......................................................................... 393 

13.4其他網絡結構..................................................................................... 393 

13.4.1卷積神經網絡......................................................................... 393 

13.4.2圖神經網絡 ............................................................................ 394 

13.4.3跨層連接 ............................................................................... 395 

13.4.4遞歸神經網絡......................................................................... 396 

13.5總結 .................................................................................................. 397 

13.6習題 .................................................................................................. 398

第 14章集成方法........................................................................................... 399 

14.1 Bagging法 ........................................................................................ 400 

14.1.1 Bootstrap法.......................................................................... 400 

14.1.2 Bagging法基本原理 ............................................................... 401 

14.1.3隨機森林 ............................................................................... 402 

14.1.4隨機森林無監督學習............................................................... 403 

14.2 Boosting法 ....................................................................................... 404 

14.2.1基本概念 ............................................................................... 404 

14.2.2 AdaBoost算法 ...................................................................... 406 

14.2.3二階近似法 ............................................................................ 408 

14.2.4一階近似法/Gradient Boosting法 ........................................... 409 

14.3 Stacking法........................................................................................ 409 

14.4其他話題 ........................................................................................... 410 

14.4.1混合專家模型......................................................................... 410 

14.4.2無限集成與核方法 .................................................................. 411 

14.4.3無監督學習的集成 .................................................................. 412 

14.5總結 .................................................................................................. 412 

14.6習題 .................................................................................................. 412

參考文獻 ........................................................................................................... 414