機器學習從原理到應用(附微課視頻 第2版)(線上實訓版)

卿來雲 尹蘭蘭

  • 出版商: 人民郵電
  • 出版日期: 2026-05-01
  • 定價: $359
  • 售價: $358
  • 語言: 簡體中文
  • ISBN: 7115685924
  • ISBN-13: 9787115685926
  • 相關分類: Machine Learning
  • 下單後立即進貨 (約4週~6週)

  • 機器學習從原理到應用(附微課視頻 第2版)(線上實訓版)-preview-1
機器學習從原理到應用(附微課視頻 第2版)(線上實訓版)-preview-1

商品描述

本書系統介紹機器學習的基礎理論及應用。全書共 12 章,第 1 章和第 2 章介紹機器學習的基礎知識;第 3 章~第 9 章介紹傳統的監督學習算法;第 10 章介紹神經網絡相關內容;第 11 章和第 12 章分別介紹無監督學習算法中的聚類和降維。本書內容由淺入深、語言通俗易懂,既註重理論深度,又強調實踐指導性。每章末均設置習題,幫助讀者鞏固知識、提升運用知識的能力。

本書可作為人工智能、大數據及計算機等相關專業機器學習課程的教材,也可作為相關領域從業人員的參考書。

作者簡介

卿來雲

中國科學院研究生院計算機博士,中國科學院大學計算機學院教授,長期從事機器學習、計算機視覺和數據壓縮方面的科研與教學工作,主要研究領域涉及機器學習、圖像識別和視頻內容分析等。

目錄大綱

第 1章 機器學習 ......................... 1

1.1 什麼是機器學習 ......................... 1

1.2 機器學習的類型 ....................... 2

1.2.1 數據 ................................. 2

1.2.2 監督學習 ......................... 3

1.2.3 無監督學習 ..................... 4

1.2.4 強化學習 ......................... 5

1.3 機器學習的發展歷史 ................. 6

1.4 機器學習的工作流程 ................. 7

1.4.1 數據收集 ......................... 8

1.4.2 特征工程 ......................... 8

1.4.3 模型訓練 ......................... 8

1.4.4 模型選擇 ......................... 9

1.4.5 模型融合(可選) ......... 9

1.4.6 模型評估和模型部署 ..... 9

1.5 常用的機器學習工具包 ............. 9

1.5.1 Jupyter Notebook .......... 10

1.5.2 pandas ............................ 10

1.5.3 數據可視化工具包 ........ 11

1.5.4 scikit-learn ...................... 11

1.6 小結 ........................................... 12

1.7 習題 ........................................... 12

第 2章 模型評估與模型選擇 .................................. 13

2.1 K 近鄰分類器 ......................... 13

2.1.1 K 近鄰分類器的基本思想 ............................... 13

2.1.2 距離度量 ....................... 14

2.1.3 特征縮放 ....................... 16

2.1.4 K 的影響 ....................... 18

2.2 模型評估 .................................. 19

2.3 模型選擇 .................................. 20

2.3.1 留出法 ........................... 21

2.3.2 交叉驗證法 ................... 21

2.4 超參數搜索 .............................. 23

2.4.1 網格搜索 ....................... 23

2.4.2 隨機搜索 ....................... 24

2.5 scikit-learn 中 K 近鄰分類器 ...................................... 24

2.6 小結 .......................................... 26

2.7 習題 ........................................... 26

第3章 線性回歸 ....................... 28

3.1 線性回歸簡介 ........................... 28

3.1.1 一元線性回歸 ............... 28

3.1.2 多元線性回歸 ............... 30

3.2 回歸任務中的損失函數 ........... 31

3.2.1 L1 損失 ......................... 32

3.2.2 L2 損失 ......................... 32

3.2.3 L2 損失與 L1 損失的對比 ............................... 32

3.2.4 Huber 損失 .................... 33

3.3 正則化的線性回歸 ................... 34

3.3.1 L2 正則化(嶺回歸) ... 34

3.3.2 L1 正則化(LASSO 回歸) ........................... 35

3.3.3 L2 正則化+L1 正則化(彈性網絡) ................. 35

3.4 線性回歸的解析求解 ............... 35

3.4.1 最小二乘線性回歸的解析求解 ....................... 36

3.4.2 嶺回歸的解析求解 ....... 37

3.5 梯度下降法 ............................... 38

3.5.1 學習率 ........................... 39

3.5.2 小批量梯度下降 ........... 40

3.6 回歸模型的性能評價指標 ....... 41

3.6.1 均方誤差 ....................... 41

3.6.2 均方根誤差 ................... 41

3.6.3 平均絕對誤差 ............... 41

3.6.4 R2 分數 .......................... 41

3.7 線性回歸的超參數調優 ........... 42

3.8 小結 .......................................... 44

3.9 習題 ........................................... 44

第4章 特征工程 ....................... 46

4.1 特征工程概述 ........................... 46

4.2 數據探索性分析 ....................... 47

4.2.1 數據總覽 ....................... 47

4.2.2 數據質量 ....................... 47

4.2.3 單維特征的分布 ........... 48

4.2.4 特征之間的關系 ........... 49

4.2.5 特征與標簽之間的關系 ... 50

4.3 數據預處理 ............................... 51

4.3.1 數值型特征的預處理 ... 51

4.3.2 類別型特征的預處理 ... 53

4.3.3 時間型特征的預處理 ... 57

4.4 特征提取 ................................... 57

4.5 特征構建 ................................... 57

4.5.1 交互特征 ....................... 58

4.5.2 多項式特征 ................... 58

4.6 特征選擇 ................................... 58

4.6.1 過濾式特征選擇 ........... 58

4.6.2 包裹式特征選擇 ........... 60

4.6.3 嵌入式特征選擇 ........... 62

4.7 小結 ........................................... 62

4.8 習題 ........................................... 62

第5章 對數幾率回歸 ............ 64

5.1 對數幾率回歸簡介 ................... 64

5.2 對數幾率回歸的目標函數 ....... 66

5.3 多分類任務 ............................... 67

5.4 分類模型的性能評價指標 ....... 69

5.4.1 正確率 .......................... 69

5.4.2 交叉熵損失 .................. 69

5.4.3 合頁損失 ...................... 69

5.4.4 混淆矩陣 ...................... 70

5.4.5 ROC 曲線與 AUC ........ 71

5.4.6 P-R 曲線與 AP ............. 71

5.4.7 多分類模型的性能評價指標 .............................. 72

5.5 類別不均衡的分類 .................. 73

5.6 案例分析:糖尿病風險預測 .......................................... 73

5.7 小結 .......................................... 75

5.8 習題 .......................................... 76

第6章 支持向量機 ................. 78

6.1 最大間隔分類器 ....................... 78

6.2 軟間隔的 SVM ....................... 81

6.3 對偶問題 .................................. 83

6.4 核化 SVM ............................... 86

6.5 支持向量回歸 .......................... 89

6.6 案例分析:糖尿病風險 預測 .......................................... 90

6.7 小結 .......................................... 91

6.8 習題 .......................................... 91

第7章 樸素貝葉斯分類器 ............................ 93

7.1 生成式分類器 ........................... 93

7.2 貝葉斯規則 .............................. 94

7.3 樸素貝葉斯分類器基本概念 .......................................... 94

7.3.1 類先驗概率 ................... 95

7.3.2 類條件概率 ................... 95

7.4 樸素貝葉斯分類器的訓練 ...... 96

7.4.1 類先驗概率估計 ........... 96

7.4.2 類條件概率估計 ........... 97

7.5 樸素貝葉斯分類器與其他分類器的比較 ......................... 100

7.6 案例分析:新聞分類 ............ 102

7.7 小結 ........................................ 104

7.8 習題 ........................................ 104

第8章 決策樹 .......................... 106

8.1 決策樹簡介 ............................. 106

8.2 樹的構建 ................................ 108

8.3 劃分準則 ................................ 108

8.4 提前終止 ................................ 116

8.5 剪枝 ........................................ 117

8.6 scikit-learn 中的決策樹API ......................................... 119

8.7 案例分析:鳶尾花分類 ........ 121

8.8 小結 ........................................ 122

8.9 習題 ........................................ 122

第9章 集成學習 ..................... 124

9.1 誤差的偏差-方差分解 .......... 124

9.2 為什麼集成學習有效 ............ 125

9.3 Bagging ............................... 126

9.4 隨機森林 ................................. 129

9.5 提升法 ..................................... 131

9.5.1 AdaBoost ..................... 131

9.5.2 GBM ............................ 134

9.5.3 XGBoost ...................... 137

9.6 投票法 ..................................... 144

9.7 堆疊法 ..................................... 145

9.8 案例分析:糖尿病風險 預測 ......................................... 147

9.9 小結 ........................................ 149

9.10 習題 ...................................... 149

第 10 章 神經網絡 ................... 150

10.1 神經網絡簡介 ....................... 150

10.1.1 神經元的基本結構 ... 150

10.1.2 前饋神經網絡結構 ... 152

10.2 神經網絡的訓練:反向傳播 ....................................... 153

10.3 激活函數 .............................. 154

10.4 神經網絡的抗過擬合技術 ....................................... 157

10.4.1 數據增廣 ................. 157

10.4.2 正則化 ..................... 157

10.4.3 訓練提前終止 ......... 157

10.4.4 丟棄法 ..................... 158

10.5 優化算法 .............................. 158

10.5.1 動量法 ..................... 159

10.5.2 涅斯捷羅夫加速梯度法 ..................... 159

10.5.3 AdaGrad 算法 .......... 160

10.5.4 RMSprop 算法 ......... 160

10.5.5 Adam 算法 ............... 160

10.6 卷積神經網絡 ....................... 161

10.6.1 卷積層 ..................... 162

10.6.2 通道數 ..................... 164

10.6.3 池化層 ..................... 164

10.7 循環神經網絡 ....................... 165

10.7.1 簡單循環神經網絡 .... 165

10.7.2 LSTM ....................... 166

10.8 殘差連接 ............................... 167

10.9 案例分析:手寫數字識別 .... 168

10.10 小結 .................................... 170

10.11 習題 ..................................... 171

第 11 章 聚類 ............................... 172

11.1 無監督學習簡介 .................... 172

11.2 聚類簡介 ............................... 172

11.3 K 均值聚類 ........................... 173

11.4 層次聚類 ............................... 177

11.5 案例分析:客戶分組 ........... 184

11.6 案例分析:風電機組異常數據識別 ........................................ 185

11.6.1 數據說明 .................. 186

11.6.2 基於規則的異常數據識別 ........................... 186

11.6.3 基於聚類的異常數據識別 ........................... 187

11.6.4 基於預測模型的異常數據識別 ................... 187

11.7 小結 ....................................... 189

11.8 習題 ....................................... 189

第 12 章 降維 .............................. 190

12.1 降維簡介 ............................... 190

12.2 主成分分析 .......................... 191

12.3 自編碼器 .............................. 196

12.4 多維縮放 .............................. 197

12.5 t-SNE ................................ 198

12.6 案例分析:手寫數字識別 ...................................... 200

12.7 案例分析:鳶尾花分類 ...... 201

12.8 小結 ...................................... 203

12.9 習題 ...................................... 203

參考文獻 ......................................... 204