數據挖掘
呂欣 王夢寧
- 出版商: 科學出版
- 出版日期: 2025-06-01
- 售價: $468
- 語言: 簡體中文
- 頁數: 428
- 裝訂: 平裝
- ISBN: 703081844X
- ISBN-13: 9787030818447
-
相關分類:
Data-mining
下單後立即進貨 (約4週~6週)
商品描述
本書內容涵蓋統計描述、相關分析、回歸分析 、數據降維、關聯規則挖掘、分類、聚類、異常檢測和集成學習等數據挖掘9大核心領域。通過原理解析、數學推導、流程分析、計算示例和案例演示, 精心設計231個圖表、47個代碼示例及5大類學習模塊,遴選了45個實踐案例, 促進讀者對內容的理解和掌握。此外,本書還配套豐富的數字化學習資源和全套教輔資料,形成了理論與實踐並重的立體化教學體系。
目錄大綱
目錄
第1章 緒論
1.1 大數據時代 2
1.2 大數據基本概念 3
1.2.1 大數據定義與內涵 3
1.2.2 大數據的主要特征 4
1.3 大數據與數據挖掘 6
1.3.1 大數據挖掘相關概念 6
1.3.2數據挖掘基本流程 7
1.3.3數據挖掘技術體系 9
1.3.4 大數據時代的挑戰 15
1.4 大數據挖掘的典型應用 17
1.4.1 金融大數據 17
1.4.2 醫療大數據 18
1.4.3 制造業大數據 19
1.4.4 社交媒體大數據 20
1.5 大數據挖掘隱私與倫理問題 20
1.5.1 數據挖掘隱私問題 20
1.5.2 數據挖掘倫理問題 22
1.5.3 數據挖掘行為規範 22
本章小結 24
第2章 數據描述與統計指標
2.1 數據預處理 26
2.1.1 數據預處理概要 26
2.1.2 數據清洗 27
2.1.3 數據集成 32
2.1.4 數據獅 33
2.1.5 數據變換 37
2.1.6 實踐案例:線上零售交易數據預處理 39
2.2 數據屬性 40
2.2.1 標稱屬性 40
2.2.2 系數屬性 41
2.2.3 數值屬性 42
2.2.4 離散屬性與連續屬性 43
2.3 數據描述性統計 43
2.3.1 集中趨勢度量 44
2.3.2 離散程度度量 46
2.3.3 分布形態度量 50
2.3.4 描述性統計常用工具 52
2.3.5 實踐案例:化妝品銷售數據描述性統計分析 53
2.4 數據可視化 54
2.4.1 條形圖 55
2.4.2 餅圖 56
2.4.3 箱線圖 56
2.4.4 直方圖 57
2.4.5 折線圖 57
2.4.6散點圖 58
2.4.7 氣泡圖 59
2.4.8 數據可視化常用工具 60
2.4.9 實踐案例:鉆石屬性數據可視化分析 60
本章小結 64
第3章 相關分析
3.1 認識函數關系與相關關系 67
3.1.1 函數關系 67
3.1.2 相關關系 67
3.2 線性相關分析 69
3.2.1 相關分析的正態性檢驗 70
3.2.2 Pearson 相關系數 72
3.2.3 Spearman 秩相關系數 72
3.2.4 Kendall等級相關系數 74
3.2.5 實踐案例:網絡直播大數據和亞馬遜評論數據相關分析 76
3.3 非線性相關分析 79
3.3.1 認識非線性相關性 79
3.3.2 互信息 80
3.3.3 最大信息緣 82
3.3.4 實踐案例:橋梁振動的相關分析 83
3.4 偏相關分析 85
3.4.1 偏相關分析概述 85
3.4.2 實踐案例:國內主要城市年度統計指標數據偏相關分析 87
3.5 距離相關分析 89
3.5.1 距離度量方法 89
3.5.2 實踐案例:用戶相似性度量 94
本章小結 98
第4章 回歸分析
4.1 回歸分析概論 101
4.1.1 高爾頓身高回歸研究 101
4.1.2 回歸分析概述 102
4.1.3 回歸模型的評價指標 103
4.2 線性回歸 105
4.2.1 一元線性回歸 105
4.2.2 實踐案例:直播平臺觀眾數預測 108
4.2.3 多元線性回歸 110
4.2.4 實踐案例:基於多元線性回歸的汽車燃油效率預測 114
4.3 多重共線性 117
4.3.1 認識多重共線性 117
4.3.2 多重共線性的診斷 118
4.3.3 多重共線性的解決方案 119
4.4 嶺回歸 120
4.4.1 嶺回歸概述 120
4.4.2 嶺參數的選擇 121
4.4.3 實踐案例:基於嶺回歸的汽車燃油效率預測 122
4.5 LASSO 回歸 123
4.5.1 LASSO 回歸概述 123
4.5.2 坐標下降法 124
4.5.3 實踐案例:基於LASSO回歸的汽車燃油效率預測 125
4.6 非線性回歸 127
4.6.1 本質線性模型 127
4.6.2 本質非線性模型 129
4.6.3 實踐案例:基於工齡的月薪預測 129
本章小結 133
第5章 數據降維
5.1 降維的基本概念 136
5.1.1 降維的定義及原理 136
5.1.2 降維算法分類 136
5.2 奇異值分解 137
5.2.1 奇異值分解基本原理 137
5.2.2 奇異值分解算法評價 140
5.2.3 實踐案例:基於奇異值分解的圖像壓縮 140
5.3 主成分分析 142
5.3.1 主成分分析基本原理 142
5.3.2 主成分分析算法評價 146
5.3.3 實踐案例:基於主成分分析的鳶尾花數據集分析 147
5.4 因子分析 150
5.4.1 因子分析基本原理 150
5.4.2 因子分析算法評價 156
5.4.3 實踐案例:基於因子分析的人格特征潛在因子挖掘 156
5.5 多維尺度變換 158
5.5.1 多維尺度變換基本原理 158
5.5.2 多維尺度變換算法評價 160
5.5.3 實踐案例:基於多維尺度變換的人臉數據集降維 160
5.6 等距特征映射 163
5.6.1 等距特征映射基本原理 163
5.6.2 等距特征映射算法評價 165
5.6.3 實踐案例:基於等距特征映射的S狀流形模型降維 165
5.7 線性判別分析 167
5.7.1 線性判別分析基本原理 167
5.7.2 線性判別分析算法評價 170
5.7.3 實踐案例:基於線性判別分析的三維數據集降維 170
5.8 t-SNE 172
5.8.1 t-SNE基本原理 172
5.8.2 t-SNE算法評價 175
5.8.3 實踐案例:基於t-SNE的手寫數字數據集降維 175
5.9 UMAP 177
5.9.1 UMAP算法基本思想 177
5.9.2 UMAP算法評價 179
5.9.3 實踐案例:基於UMAP的手寫數字數據集降維 179
本章小結 181
第6章 關聯規則挖掘
6.1 關聯規則挖掘概要 184
6.1.1 關聯規則的含義 184
6.1.2 頻繁項集 186
6.1.3 閉頻繁項集和極大頻繁項集 187
6.1.4 從頻繁項集到關聯規則 189
6.1.5 關聯模式的評估 191
6.2 Apriori 算法 197
6.2.1 Apriori算法基本原理 197
6.2.2 Apriori算法應用與評價 198
6.2.3 Apriori算法的優化 200
6.2.4 實踐案例:基於Apriori算法的超市商品購買記錄關聯分析 202
6.3 FP-growth 算法 204
6.3.1 FP-growth算法基本原理 204
6.3.2 FP-growth算法應用與評價 209
6.3.3 實踐案例:基於FP-growth算法消費者購物時間偏好關聯分析 209
6.4 Eclat 算法 211
6.4.1 Eclat算法基本原理 211
6.4.2 Eclat算法應用與評價 213
6.4.3實踐案例:基於Eclat算法的糖尿病癥狀關聯分析 213
6.5 H-mine 算法 216
6.5.1 H-mine算法基本原理 216
6.5.2 H-mine算法應用與評價 221
6.5.3 實踐案例:基於H-mine算法的新聞推薦 221
本章小結 224
第7章 分類
7.1 分類霞概要 227
7.1.1 分類定義及原理 227
7.1.2 常用分類算法 227
7.1.3 分類算法評價指標 228
7.2 K-近鄰 232
7.2.1 K-近鄰基本原理 232
7.2.2 K-近鄰主要參數 233
7.2.3 K-近鄰算法應用與評價 234
7.2.4 實踐案例:基於K-近鄰的廣告點擊預測 234
7.3 樸素貝葉斯分類 237
7.3.1 貝葉斯分類基本原理 237
7.3.2 樸素貝葉斯分類原理 238
7.3.3 零頻現象的拉普拉斯修正 240
7.3.4 樸素貝葉斯算法應用與評價 241
7.3.5 實踐案例:基於樸素貝葉斯預測恒星類型 241
7.4 決策樹 244
7.4.1 決策樹基本原理 245
7.4.2 ID3 247
7.4.3 C4.5 250
7.4.4 CART 252
7.4.5 決策樹算法應用與評價 254
7.4.6 實踐案例:基於決策樹的旅遊業客戶流失預測 255
7.5 Logistic 回歸 258
7.5.1 從線性回歸到Logistic回歸 258
7.5.2 Logistic回歸的損失函數 260
7.5.3 通過梯度下降求解最優參數 260
7.5.4 OvR和OvO 262
7.5.5 Logistic回歸算法應用與評價 263
7.5.6 實踐案例:基於Logistic回歸的肝病預測 263
7.6 支持向量機 265
7.6.1 支持向量機概述 266
7.6.2 線性可分支持向量機 266
7.6.3 線性支持向量機 270
7.6.4 非線性支持向量機 273
7.6.5 支持向量機算法應用與評價 276
7.6.6 實踐案例:不良用戶識別 277
7.7 人工神經網絡 278
7.7.1 感知機 278
7.7.2 XOR問題 280
7.7.3 多層感知樹莫型 281
7.7.4 誤差反向傳播算法 284
7.7.5 深度神經網絡 288
7.7.6 實踐案例:基於面部特征的性別分類 290
本章小結 293
第8章 聚類
8.1 聚類算法概要 295
8.1.1 聚類的基本原理 295
8.1.2 聚類算法的分類 296
8.1.3 聚類算法評價指標 297
8.1.4 簇數量的確定 303
8.2 層次聚類 305
8.2.1 層次聚類算法基本原理 305
8.2.2 層次聚類算法應用與評價 307
8.2.3 實踐案例:基於層次聚類的小麥種子聚類 307
8.3 K-means聚類 309
8.3.1 K-means算法基本原理 309
8.3.2 質心的初始化 310
8.3.3 K-means算法應用與評價 311
8.3.4 實踐案例:基於K-means消費者畫像構建 311
8.4 高斯混合聚類 313
8.4.1 高斯混合聚類基本原理 314
8.4.2 高斯混合聚類流程 315
8.4.3 高斯混合聚類應用與評價 316
8.4.4 實踐案例:基於高斯混合聚類的食品聚類 316
8.5 DBSCAN算法 318
8.5.1 DBSCAN算法基本原理 318
8.5.2 DBSCAN算法應用與評價 319
8.5.3實踐案例:基於DBSCAN的用戶信用卡數據聚類 320
8.6 OPTICS 算法 322
8.6.1 OPTICS算法基本原理 322
8.6.2 OPTICS算法應用與評價 324
8.6.3 實踐案例:OPTICS與DBSCAN算法對比 324
8.7 譜聚類算法 327
8.7.1 譜聚類算法基本原理 327
8.7.2 譜聚類算法應用與評價 333
8.7.3 實踐案例:基於譜聚類的股票數據聚類 333
本章小結 335
第9章 異常檢測
9.1 異常檢測算法概要 337
9.1.1 異常與異常檢測 337
9.1.2 異常檢測算法的分類 338
9.1.3 異常檢測的常用數據集 339
9.2 基於統計理論的異常檢測 342
9.2.1 3*準則 343
9.2.2 箱線圖 344
9.2.3 基於直方圖的異常值得分 345
9.2.4 累積和法 347
9.2.5 實踐案例:基於箱線圖的wiki網絡流量異常檢測 350
9.3 基於空間分布的異常檢測 351
9.3.1 孤立森林 352
9.3.2 局部異常因子 355
9.3.3 實踐案例:基於局部異常因子的信用卡欺詐行為檢測 357
9.4 基於降維的異常檢測 359
9.4.1 主成分分析 359
9.4.2 自編碼器 362
9.4.3 實踐案例:基於主成分分析的飛機發動機異常狀態識別 363
9.5 基於預測的異常檢測 365
9.5.1 向量自回歸模型 366
9.5.2 自回歸差分移動平均模型 367
9.5.3 LSTM網絡模型 370
9.5.4 實踐案例:基於LSTM的股票收盤價格異常檢測 373
9.6 延伸閱讀——WSARE 375
本章小結 378
第10章 集成學習
10.1 集成學習概要 381
10.1.1 集成學習的定義及原理 381
10.1.2 Bagging(裝袋) 382
10.1.3 Boosting(提升) 384
10.1.4 Stacking(堆疊) 385
10.1.5 集成學習的結合策略 386
10.2 隨機森林 388
10.2.1 隨機森林基本原理 388
10.2.2 隨機森林算法應用與評價 390
10.2.3 實踐案例:基於隨機森林算法的銀行危機預測 390
10.3 AdaBoost 393
10.3.1 加法模型 394
10.3.2 前向分布算法 395
10.3.3 AdaBoost求解步驟 395
10.3.4 AdaBoost算法應用與評價 397
10.3.5實踐案例:基於AdaBoost算法的馬疝病預測 397
10.4 梯度提升樹 400
10.4.1 回歸樹基本原理 400
10.4.2 梯度提升樹基本原理 402
10.4.3 梯度提升樹算法應用與評價 404
10.4.4 實踐案例:基於梯度提升樹算法的充電樁故障狀態預測 405
10.5 XGBoost 407
10.5.1 XGBoost基本原理 408
10.5.2 XGBoost目標函數構建 409
10.5.3 XGBoost目標函數求解 410
10.5.4 XGBoost算法應用與評價 412
10.5.5 實踐案例:基於XGBoost算法的產品定價預測 413
10.6 LightGBM 416
10.6.1 LightGBM 的基本思想 416
10.6.2 直方圖算法 417
10.6.3 梯度單邊采樣算法 419
10.6.4 互斥特征捆綁算法 421
10.6.5 LightGBM算法應用與評價 423
10.6.6 實踐案例:基於LightGBM算法的中風預測 424
本章小結 427
