數據挖掘與機器學習 : 基礎概念和算法 (原書2版) (Data Mining and Machine Learning: Fundamental Concepts and Algorithms, 2/e)

Mohammed J. Zaki,Wagner Meira, Jr. 譯 計湘婷//盧苗苗//李軒涯

買這商品的人也買了...

商品描述

本書詳實介紹了數據挖掘與機器學習相關的各種內容,包括數據矩陣、圖數據、
核方法、項集挖掘、聚類、貝葉斯分類器、決策樹、支持向量機、線性回歸、
邏輯回歸、神經網絡、深度學習等,介紹其相關概念和基礎算法,並在每章的末尾配有相關練習。
第二版新增了幾個關於回歸的章節,包括神經網絡和深度學習的內容。

目錄大綱

目錄
Data Mining and Machine Learning
譯者序
前言
作者簡介
第一部分數據分析基礎1
第1章數據矩陣3
1.1 數據矩陣的組成3
1.2 屬性4
1.3 數據:代數和幾何觀點5
1.3.1 距離和角度7
1.3.2 均值和總方差9
1.3.3 正交投影10
1.3.4 線性無關和維數12
1.4 數據:概率觀點13
1.4.1 二元隨機變量17
1.4.2 多元隨機變量20
1.4.3 隨機抽樣與統計21
1.5 拓展閱讀22
1.6 練習23
第2章數值型屬性24
2.1 一元分析24
2.1.1 集中趨勢度量25
2.1.2 離散度度量28
2.2 二元分析32
2.2.1 位置和離散度的度量33
2.2.2 相關性度量33
2.3 多元分析37
2.4 數據歸一化41
2.5 正態分佈42
2.5.1 一元正態分佈43
2.5.2 多元正態分佈44
2.6 拓展閱讀47
2.7 練習47
第3章類別型屬性49
3.1 一元分析49
3.1.1 伯努利變量49
3.1.2 多元伯努利變量51
3.2 二元分析56
3.3 多元分析65
3.4 距離和角度69
3.5 離散化70
3.6 拓展閱讀72
3.7 練習72
第4章圖數據74
4.1 圖的概念74
4.2 拓撲屬性77
4.3 中心度分析81
4.3.1 基本中心度81
4.3.2 Web中心度82
4.4 圖模型89
4.4.1 Erd?s-Rényi隨機圖模型91
4.4.2 Watts-Strogatz小世界圖
模型94
4.4.3 Barabási-Albert無標度模型98
4.5 拓展閱讀104
4.6 練習105
第5章核方法107
5.1 核矩陣110
5.1.1 再生核映射111
5.1.2 Mercer核映射113
5.2 向量核115
5.3 特徵空間中的基本核運算119
5.4 複雜對象的核124
5.4.1 字符串的譜核124
5.4.2 圖節點的擴散核125
5.5 拓展閱讀129
5.6 練習129
第6章高維數據130
6.1 高維對象130
6.2 高維體積133
6.3 超立方體的內接超球面135
6.4 薄超球面殼的體積136
6.5 超空間的對角線137
6.6 多元正態分佈的密度138
6.7 附錄:超球面體積的推導140
6.8 拓展閱讀143
6.9 練習144
第7章降維146
7.1 背景介紹146
7.2 主成分分析149
7.2.1 優一維近似149
7.2.2 優二維近似152
7.2.3 優r維近似155
7.2.4 主成分分析的幾何意義158
7.3 核主成分分析160
7.4 奇異值分解166
7.4.1 奇異值分解中的幾何
意義167
7.4.2 SVD和PCA之間的
聯繫168
7.5 拓展閱讀169
7.6 練習169
第二部分頻繁模式挖掘171
第8章項集挖掘173
8.1 頻繁項集和關聯規則173
8.2 項集挖掘算法176
8.2.1 逐層方法:Apriori算法177
8.2.2 事務標識符集的交集方法:
Eclat算法181
8.2.3 頻繁模式樹方法:FPGrowth
算法184
8.3 生成關聯規則188
8.4 拓展閱讀189
8.5 練習190
第9章項集概覽194
9.1 大頻繁項集和閉頻繁項集194
9.2 挖掘大頻繁項集:GenMax
算法196
9.3 挖掘閉頻繁項集:Charm算法198
9.4 非可導項集200
9.5 拓展閱讀205
9.6 練習205
第10章序列挖掘208
10.1 頻繁序列208
10.2 挖掘頻繁序列209
10.2.1 逐層挖掘:GSP 209
10.2.2 垂直序列挖掘:Spade 211
10.2.3 基於投影的序列挖掘:
PrefixSpan 212
10.3 基於後綴樹的子串挖掘214
10.3.1 後綴樹214
10.3.2 Ukkonen線性時間複雜度
算法217
10.4 拓展閱讀222
10.5 練習223
第11章圖模式挖掘226
11.1 同構與支持度226
11.2 候選圖生成229
11.3 gSpan算法232
11.3.1 擴展和支持度計算233
11.3.2 權威性檢測238
11.4 拓展閱讀239
11.5 練習239
第12章模式評估與規則評估242
12.1 模式評估和規則評估的度量242
12.1.1 規則評估度量242
12.1.2 模式評估度量249
12.1.3 比較多條規則和模式251
12.2 顯著性檢驗和置信區間253
12.2.1 產生式規則的費希爾
精確檢驗254
12.2.2 顯著性的置換檢驗257
12.2.3 置信區間內的自助抽樣261
12.3 拓展閱讀262
12.4 練習263
第三部分聚類265
第13章基於代表點的聚類267
13.1 K-means算法267
13.2 核K-means 271
13.3 期望大化聚類274
13.3.1 一維數據的EM 276
13.3.2 d維數據的EM 278
13.3.3 大似然估計283
13.3.4 EM算法286
13.4 拓展閱讀289
13.5 練習290
第14 章層次式聚類292
14.1 基礎知識292
14.2 聚合型層次式聚類294
14.2.1 簇間距離294
14.2.2 更新距離矩陣297
14.2.3 計算複雜度298
14.3 拓展閱讀298
14.4 練習298
第15章基於密度的聚類301
15.1 DBSCAN算法301
15.2 核密度估計304
15.2.1 一元密度估計304
15.2.2 多元密度估計307
15.2.3 最近鄰密度估計308
15.3 基於密度的聚類:DENCLUE 309
15.4 拓展閱讀313
15.5 練習314
第16章譜聚類和圖聚類316
16.1 圖和矩陣316
16.2 基於圖割的聚類322
16.2.1 聚類目標函數:比例割
和歸一割323
16.2.2 譜聚類算法325
16.2.3 大化目標函數:平均割
和模塊度328
16.3 馬爾可夫聚類334
16.4 拓展閱讀339
16.5 練習340
第17章聚類驗證342
17.1 外部驗證度量342
17.1.1 基於匹配的度量343
17.1.2 基於熵的度量346
17.1.3 成對度量349
17.1.4 關聯度量352
17.2 內部驗證度量354
17.3 相對驗證度量361
17.3.1 簇穩定性366
17.3.2 聚類趨向性368
17.4 拓展閱讀372
17.5 練習373
第四部分分類375
第18章基於概率的分類377
18.1 貝葉斯分類器377
18.1.1 估計先驗概率377
18.1.2 估計似然值378
18.2 樸素貝葉斯分類器382
18.3 K最近鄰分類器385
18.4 拓展閱讀387
18.5 練習387
第19章決策樹分類器389
19.1 決策樹390
19.2 決策樹算法392
19.2.1 分割點評估度量393
19.2.2 評估分割點394
19.2.3 計算複雜度401
19.3 拓展閱讀401
19.4 練習401
第20章線性判別分析403
20.1 最佳線性判別403
20.2 核判別分析408
20.3 拓展閱讀413
20.4 練習414
第21章支持向量機415
21.1 支持向量和間隔415
21.2 SVM:線性可分的情況419
21.3 軟間隔SVM:線性不可分
的情況423
21.3.1 鉸鏈誤損424
21.3.2 二次誤損427
21.4 核SVM:非線性情況428
21.5 SVM訓練算法:隨機梯度上升431
21.6 拓展閱讀436
21.7 練習436
第22章分類評估438
22.1 分類性能度量438
22.1.1 基於列聯表的度量439
22.1.2 二元分類:正類和負類441
22.1.3 ROC分析444
22.2 分類器評估448
22.2.1 K折交叉驗證449
22.2.2 自助抽樣450
22.2.3 置信區間451
22.2.4 分類器比較:配對t檢驗455
22.3 偏差–方差分解457
22.4 合成分類器460
22.4.1 裝袋法460
22.4.2 隨機森林:裝袋決策樹461
22.4.3 boosting 463
22.4.4 堆棧法467
22.5 拓展閱讀468
22.6 練習469
第五部分回歸471
第23章線性回歸473
23.1 線性回歸模型473
23.2 二元回歸474
23.3 多元回歸479
23.3.1 多元回歸的幾何結構481
23.3.2 多元回歸算法483
23.3.3 多元回歸分析:隨機梯度
下降486
23.4 嶺回歸487
23.5 核回歸490
23.6 L1回歸:套索回歸494
23.6.1 次梯度和次微分495
23.6.2 二元L1回歸495
23.6.3 多元L1回歸496
23.7 拓展閱讀498
23.8 練習499
第24章邏輯回歸500
24.1 二元邏輯回歸500
24.2 多元邏輯回歸506
24.3 拓展閱讀510
24.4 練習510
第25章神經網絡511
25.1 人工神經元:激活函數511
25.2 神經網絡:回歸函數和分類
函數515
25.2.1 回歸函數515
25.2.2 分類函數516
25.2.3 誤差函數518
25.3 多層感知器:一個隱藏層519
25.3.1 前饋階段520
25.3.2 反向傳播階段521
25.3.3 MLP訓練525
25.4 深度多層感知器529
25.4.1 前饋階段530
25.4.2 反向傳播階段531
25.4.3 輸出層的淨梯度531
25.4.4 隱藏層的淨梯度534
25.4.5 深度MLP訓練534
25.5 拓展閱讀537
25.6 練習537
第26章深度學習539
26.1 循環神經網絡539
26.1.1 時間上的前饋541
26.1.2 時間上的反向傳播541
26.1.3 訓練RNN 544
26.1.4 雙向RNN 546
26.2 門控RNN:長–短期記憶
網絡547
26.2.1 遺忘門549
26.2.2 長–短期記憶網絡552
26.2.3 訓練LSTM網絡553
26.3 卷積神經網絡556
26.3.1 卷積556
26.3.2 偏差和激活函數562
26.3.3 填充和步幅563
26.3.4 廣義聚合函數:池化565
26.3.5 深度CNN 566
26.3.6 訓練CNN 566
26.4 正則化571
26.4.1 深度學習的L2正則化572
26.4.2 丟棄正則化574
26.5 拓展閱讀576
26.6 練習576
第27章回歸評估578
27.1 一元回歸578
27.1.1 估計方差579
27.1.2 擬合優度580
27.1.3 回歸係數和偏差項
的推斷583
27.1.4 回歸效果的假設檢驗587
27.1.5 標準化殘差588
27.2 多元回歸591
27.2.1 擬合優度593
27.2.2 回歸係數推斷596
27.2.3 假設檢驗598
27.2.4 統計檢驗的幾何學方法601
27.3 拓展閱讀604
27.4 練習604