Python機器學習——數據建模與分析(第2版)

薛薇

  • 出版商: 電子工業
  • 出版日期: 2023-07-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • 頁數: 392
  • ISBN: 7121459353
  • ISBN-13: 9787121459351
  • 相關分類: Machine Learning
  • 下單後立即進貨 (約4週~6週)

商品描述

本書將引領讀者進入Python機器學習領域。機器學習是一套先進、深刻且內容豐富的算法集合,已成為數據科學中數據建模與分析的重要方法。Python是一款簡明、高效且功能強大的開源工具,也是數據科學實踐中最常用的電腦語言。學好機器學習的理論方法,掌握Python這個實用工具,是成長為數據科學人才所必需的。本書採用理論與實踐相結合的方式,理論上突出可讀性並兼具知識深度和廣度,實踐上強調可操作性並兼具應用廣泛性,對機器學習的原理部分進行了深入透徹的講解,對機器學習的算法部分給出了Python代碼,並且在各章中設置了Python編程示例。全彩呈現機器學習的數據建模可視化圖例(80多幅彩圖),掃描書中相應二維碼即可查看。提供配套數據集、源代碼、教學PPT等學習資源,登錄華信教育資源網(www.hxedu.com.cn)即可免費下載。本書可作為高等院校機器學習、數據分析等專業課程的教材,也可作為數據科學應用研究者及對Python機器學習感興趣的數據建模與分析從業者的參考書。

目錄大綱

目 錄

第1章 機器學習概述 1
1.1 機器學習的發展:人工智能中的機器學習 1
1.1.1 符號主義人工智能 2
1.1.2 基於機器學習的人工智能 2
1.2 機器學習的核心:數據和數據建模 4
1.2.1 機器學習的對象:數據集 4
1.2.2 機器學習的任務:數據建模 6
1.3 機器學習的典型應用 11
1.3.1 機器學習的典型行業應用 11
1.3.2 機器學習在客戶細分中的應用 12
1.3.3 機器學習在客戶流失分析中的應用 13
1.3.4 機器學習在營銷響應分析中的應用 14
1.3.5 機器學習在交叉銷售中的應用 15
1.3.6 機器學習在欺詐甄別中的應用 16
本章總結 16
本章習題 16
第2章 Python機器學習基礎 17
2.1 Python:機器學習的首選工具 17
2.2 Python的集成開發環境:Anaconda 18
2.2.1 Anaconda的簡介 19
2.2.2 Anaconda Prompt的使用 19
2.2.3 Spyder的使用 20
2.2.4 Jupyter Notebook的使用 22
2.3 Python第三方包的引用 23
2.4 NumPy使用示例 23
2.4.1 NumPy數組的創建和訪問 24
2.4.2 NumPy的計算功能 26
2.5 Pandas使用示例 28
2.5.1 Pandas的序列和索引 28
2.5.2 Pandas的數據框 29
2.5.3 Pandas的數據加工處理 30
2.6 NumPy和Pandas的綜合應用:空氣質量監測數據的預處理和基本分析 32
2.6.1 空氣質量監測數據的預處理 32
2.6.2 空氣質量監測數據的基本分析 34
2.7 Matplotlib的綜合應用:空氣質量監測數據的圖形化展示 37
2.7.1 AQI的時間序列變化特點 37
2.7.2 AQI的分佈特徵及相關性分析 38
本章總結 40
本章相關函數列表 40
本章習題 47
第3章 數據預測與預測建模 48
3.1 從線性回歸模型說起 49
3.1.1 線性回歸模型的含義 49
3.1.2 線性回歸模型的幾何理解 50
3.1.3 線性回歸模型的評價 50
3.1.4 Python應用實踐:PM2.5濃度預測 51
3.2 認識線性分類模型 56
3.2.1 線性分類模型的含義 56
3.2.2 線性分類模型的幾何理解 58
3.2.3 線性分類模型的評價 60
3.2.4 Python應用實踐:空氣質量等級預測 62
3.3 從線性預測模型到非線性預測模型 67
3.4 預測模型的參數估計 68
3.4.1 損失函數與有監督學習 68
3.4.2 參數搜索策略 70
3.5 預測模型的選擇 72
3.5.1 泛化誤差的估計 72
3.5.2 Python模擬和啟示:理解泛化誤差 75
3.5.3 預測模型過擬合問題 78
3.5.4 模型選擇:偏差和方差 79
本章總結 82
本章相關函數列表 83
本章習題 83
第4章 數據預測建模:貝葉斯分類器 84
4.1 貝葉斯概率和貝葉斯法則 84
4.1.1 貝葉斯概率 84
4.1.2 貝葉斯法則 85
4.2 樸素貝葉斯分類器 85
4.2.1 從顧客行為分析角度看樸素貝葉斯分類器 85
4.2.2 Python模擬和啟示:認識樸素貝葉斯分類器的分類邊界 88
4.2.3 Python應用實踐:空氣質量等級預測 91
4.3 樸素貝葉斯分類器在文本分類中的應用 93
4.3.1 Python文本數據預處理:文本分詞和量化計算 94
4.3.2 Python文本描述性分析:詞雲圖和文本相似性 97
4.3.3 Python文本分析綜合應用:裁判文書的要素提取 99
4.4 貝葉斯參數估計簡介* 102
4.4.1 從科比投籃分析角度看貝葉斯參數估計的基本思想 102
4.4.2 共軛先驗分佈 103
4.4.3 Python應用實踐:科比投籃命中率的研究 106
本章總結 108
本章相關函數列表 108
本章習題 109
第5章 數據預測建模:近鄰分析 110
5.1 近鄰分析:K-近鄰法 110
5.1.1 距離:K-近鄰法的近鄰度量 111
5.1.2 參數K:1-近鄰法和K-近鄰法 112
5.2 回歸預測中的K-近鄰法 113
5.2.1 Python模擬和啟示:認識K-近鄰回歸線 113
5.2.2 Python模擬和啟示:認識K-近鄰回歸面 115
5.3 分類預測中的K-近鄰法 117
5.3.1 基於1-近鄰法和K-近鄰法的分類 117
5.3.2 Python模擬和啟示:參數K和分類邊界 118
5.4 基於觀測相似性的加權K-近鄰法 120
5.4.1 加權K-近鄰法的權重 121
5.4.2 Python模擬和啟示:認識加權K-近鄰分類邊界 123
5.5 K-近鄰法的Python應用實踐 124
5.5.1 空氣質量等級的預測 124
5.5.2 國產電視劇大眾評分的預測 126
5.6 K-近鄰法的適用性探討* 127
本章總結 129
本章相關函數列表 130
本章習題 130
第6章 數據預測建模:決策樹 131
6.1 決策樹的基本概念 131
6.1.1 什麽是決策樹 131
6.1.2 決策樹的深層含義 133
6.2 回歸預測中的決策樹 134
6.2.1 決策樹的回歸面 134
6.2.2 Python模擬和啟示:樹深度對回歸面的影響 135
6.3 分類預測中的決策樹 136
6.3.1 決策樹的分類邊界 137
6.3.2 Python模擬和啟示:樹深度對分類邊界的影響 137
6.4 決策樹的生長和剪枝 139
6.4.1 決策樹的生長 140
6.4.2 決策樹的剪枝 141
6.5 經典決策樹算法:CART 142
6.5.1 CART的生長 142
6.5.2 CART的後剪枝 145
6.6 決策樹的Python應用實踐 148
6.6.1 PM2.5濃度的預測 148
6.6.2 空氣質量等級的預測 149
6.6.3 藥物適用性研究 151
6.7 決策樹的高方差性* 153
本章總結 154
本章相關函數列表 154
本章習題 155
第7章 數據預測建模:集成學習 156
7.1 集成學習概述 156
7.1.1 高方差性問題的解決途徑 157
7.1.2 從弱模型到強模型的構建 157
7.2 基於重抽樣自舉法的集成學習 158
7.2.1 重抽樣自舉法 158
7.2.2 袋裝法的基本思想 158
7.2.3 隨機森林的基本思想 160
7.2.4 Python應用實踐:基於袋裝法和隨機森林預測PM2.5濃度 162
7.3 從弱模型到強模型的構建:提升法 165
7.3.1 提升法的基本思路 165
7.3.2 Python模擬和啟示:弱模型聯合成為強模型 166
7.3.3 分類預測中的提升法:AdaBoost.M1算法 168
7.3.4 Python模擬和啟示:認識AdaBoost.M1算法中高權重的樣本觀測 171
7.3.5 回歸預測中的提升法 173
7.3.6 Python應用實踐:基於AdaBoost預測PM2.5濃度 174
7.3.7 提升法的推廣算法* 176
7.4 梯度提升決策樹 179
7.4.1 梯度提升算法 179
7.4.2 梯度提升回歸樹 183
7.4.3 Python模擬和啟示:認識梯度提升回歸樹 184
7.4.4 梯度提升分類樹 185
7.4.5 Python模擬和啟示:認識梯度提升分類樹 186
7.5 XGBoost算法 188
7.5.1 XGBoost算法的目標函數 188
7.5.2 目標函數的近似表達 189
7.5.3 決策樹的求解 190
7.5.4 Python應用實踐:基於XGBoost算法預測空氣質量等級 191
本章總結 194
本章相關函數列表 194
本章習題 195
第8章 數據預測建模:人工神經網絡 197
8.1 人工神經網絡的基本概念 198
8.1.1 人工神經網絡的基本構成 198
8.1.2 人工神經網絡節點的功能 199
8.2 感知機網絡 200
8.2.1 感知機網絡中的節點 200
8.2.2 感知機網絡節點中的加法器 201
8.2.3 感知機網絡節點中的激活函數 202
8.2.4 Python模擬和啟示:認識激活函數 203
8.2.5 感知機網絡的權重訓練 206
8.3 多層感知機網絡 211
8.3.1 多層感知機網絡的結構 211
8.3.2 多層感知機網絡中的隱藏節點 213
8.3.3 Python模擬和啟示:認識隱藏節點 215
8.4 反向傳播算法 218
8.4.1 反向傳播算法的基本思想 218
8.4.2 局部梯度和連接權重更新 218
8.5 多層神經網絡的其他問題* 220
8.6 人工神經網絡的Python應用實踐 221
8.6.1 手寫體郵政編碼的識別 221
8.6.2 PM2.5濃度的回歸預測 224
本章總結 225
本章相關函數列表 225
本章習題 226
第9章 數據預測建模:支持向量機 227
9.1 支持向量分類概述 228
9.1.1 支持向量分類的基本思路 228
9.1.2 支持向量分類的三種情況 230
9.2 完全線性可分下的支持向量分類 231
9.2.1 完全線性可分下的超平面 231
9.2.2 參數求解和分類預測 233
9.2.3 Python模擬和啟示:認識支持向量 236
9.3 廣義線性可分下的支持向量分類 238
9.3.1 廣義線性可分下的超平面 238
9.3.2 廣義線性可分下的誤差懲罰和目標函數 239
9.3.3 Python模擬和啟示:認識懲罰參數C 240
9.3.4 參數求解和分類預測 242
9.4 線性不可分下的支持向量分類 243
9.4.1 線性不可分問題的一般解決方式 243
9.4.2 支持向量分類剋服維災難的途徑 244
9.4.3 Python模擬和啟示:認識核函數 246
9.5 支持向量回歸概述* 249
9.5.1 支持向量回歸的基本思路 249
9.5.2 支持向量回歸的目標函數和約束條件 251
9.5.3 Python模擬和啟示:認識參數? 253
9.6 支持向量機的Python應用實踐:老人風險體位預警 254
9.6.1 示例背景和數據說明 255
9.6.2 Python實現 255
本章總結 260
本章相關函數列表 260
本章習題 260
第10章 特徵選擇:過濾、包裹和嵌入策略 261
10.1 過濾策略下的特徵選擇 262
10.1.1 低方差過濾法 263
10.1.2 高相關過濾法中的方差分析 264
10.1.3 高相關過濾法中的卡方檢驗 268
10.1.4 Python應用實踐:過濾策略下手寫體郵政編碼數字的特徵選擇 270
10.1.5 其他高相關過濾法* 272
10.2 包裹策略下的特徵選擇 274
10.2.1 包裹策略的基本思路 274
10.2.2 遞歸式特徵剔除算法 275
10.2.3 基於交叉驗證的遞歸式特徵剔除算法 276
10.2.4 Python應用實踐:包裹策略下手寫體郵政編碼數字的特徵選擇 276
10.3 嵌入策略下的特徵選擇 278
10.3.1 嶺回歸和Lasso回歸 278
10.3.2 彈性網回歸 282
10.3.3 Python應用實踐:嵌入策略下手寫體郵政編碼數字的特徵選擇 283
本章總結 289
本章相關函數列表 289
本章習題 289
第11章 特徵提取:空間變換策略 290
11.1 主成分分析 291
11.1.1 主成分分析的基本出發點 291
11.1.2 主成分分析的基本原理 292
11.1.3 確定主成分 295
11.1.4 Python模擬與啟示:認識主成分 296
11.2 矩陣的奇異值分解 298
11.2.1 奇異值分解的基本思路 298
11.2.2 奇異值分解的Python應用實踐:臉部數據特徵提取 299
11.3 核主成分分析* 301
11.3.1 核主成分分析的出發點 301
11.3.2 核主成分分析的基本原理 303
11.3.3 Python模擬和啟示:認識核主成分 305
11.4 因子分析 307
11.4.1 因子分析的基本出發點 308
11.4.2 因子分析的基本原理 309
11.4.3 Python模擬和啟示:認識因子分析的計算過程 312
11.4.4 因子分析的其他問題 316
11.4.5 因子分析的Python應用實踐:空氣質量綜合評測 318
本章總結 320
本章相關函數列表 321
本章習題 321
第12章 揭示數據內在結構:聚類分析 322
12.1 聚類分析概述 322
12.1.1 聚類分析的目的 322
12.1.2 聚類算法概述 324
12.1.3 聚類解的評價 325
12.1.4 聚類解的可視化 328
12.2 基於質心的聚類模型:K-均值聚類 329
12.2.1 K-均值聚類基本過程 329
12.2.2 基於K-均值聚類的類別預測 331
12.2.3 Python模擬和啟示:認識K-均值聚類中的聚類數目K 331
12.3 基於連通性的聚類模型:系統聚類 335
12.3.1 系統聚類的基本過程 335
12.3.2 系統聚類中距離的連通性度量 335
12.3.3 Python模擬和啟示:認識系統聚類中的聚類數目K 336
12.4 基於高斯分佈的聚類模型:EM聚類* 340
12.4.1 出發點:有限混合分佈 341
12.4.2 EM聚類算法 342
12.4.3 Python模擬和啟示:認識EM聚類 345
12.5 聚類分析的Python應用實踐:環境污染的區域特徵分析 348
本章總結 351
本章相關函數列表 351
本章習題 352
第13章 揭示數據內在結構:特色聚類 353
13.1 基於密度的聚類:DBSCAN 353
13.1.1 DBSCAN中的相關概念 353
13.1.2 DBSCAN過程 355
13.1.3 Python模擬和啟示:認識DBSCAN的異形聚類特點 355
13.2 Mean-Shift聚類* 358
13.2.1 什麽是核密度估計 359
13.2.2 核密度估計在Mean-Shift聚類中的意義 361
13.2.3 Mean-Shift聚類過程 362
13.2.4 Python模擬與啟示:認識Mean-Shift聚類中的核寬 363
13.3 BIRCH 365
13.3.1 BIRCH的特點 365
13.3.2 BIRCH算法中的聚類特徵樹 365
13.3.3 BIRCH的基本思路 368
13.3.4 Python模擬和啟示:認識BIRCH的特點 370
13.4 特色聚類的Python應用實踐:批發商的市場細分 374
13.4.1 數據說明 374
13.4.2 Python實現 375
本章總結 377
本章相關函數列表 377
本章習題 378