統計挖掘與機器學習:大數據預測建模和分析技術(原書第3版) Statistical and Machine-Learning Data Mining, Third Edition: Techniques for Better Predictive Modeling and Analysis of Big Data, Third Edition

Bruce Ratner 鄭磊,劉子未,石仁達,鄭揚洋 譯

買這商品的人也買了...

商品描述

本書是一本區分統計數據挖掘和機器學習數據挖掘的圖書。
它創造性地彙編了數據挖掘技術,
解決了對經典和現代統計方法框架的擴展,用於預測建模和大數據分析。
SM-DM為數據挖掘領域新晉的數據科學家所面臨的共同問題提供了適當的解決方案。
它的展示側重於數據科學家(通常被稱為統計學家、數據採礦者和數據分析師)的需求,
提供實用但又強大的、簡單而又有洞察力的量化技術,其中大部分使用了新機器學習影響改進的“舊”統計方法。

目錄大綱

第3版前言
第2版前言
致謝
關於作者
第1章 引論    1
1.1 個人計算機與統計學    1
1.2 統計學和數據分析    2
1.3 EDA簡介    3
1.4 EDA範式    4
1.5 EDA的弱點    5
1.6 小數據和大數據    5
1.6.1 數據規模特徵    6
1.6.2 數據規模:個人觀點    7
1.7 數據挖掘範式    7
1.8 統計學和機器學習    8
1.9 統計數據挖掘    9
參考資料    9
第2章 數據處理相關學科:統計學和數據科學    11
2.1 引言    11
2.2 背景    11
2.3 統計學與數據科學的比較    12
2.4 討論:統計學與數據科學的不同之處    18
2.5 本章小結    19
2.6 結語    19
參考資料    19
第3章 變量評估的兩種基本數據挖掘方法    21
3.1 引言    21
3.2 相關係數    21
3.3 散點圖    22
3.4 數據挖掘    24
3.4.1 示例3.1    24
3.4.2 示例3.2    24
3.5 平滑散點圖    25
3.6 一般關聯性檢驗    27
3.7 本章小結    28
參考資料    29
第4章 用於評估成對變量的基於CHAID的數據挖掘方法    30
4.1 引言    30
4.2 散點圖    30
4.3 平滑散點圖    31
4.4 CHAID入門    32
4.5 用更平滑的散點圖進行基於CHAID的數據挖掘    33
4.6 本章小結    36
參考資料    37
第5章 校直數據的簡單性和可取性對建模十分重要    38
5.1 引言    38
5.2 數據的直度和對稱度    38
5.3 數據挖掘是高級概念    39
5.4 相關係數    39
5.5 (xx3,yy3)散點圖    40
5.6 挖掘(xx3,yy3)關係    41
5.7 基於遺傳算法的數據挖掘如何處理數據    43
5.8 校直多個變量    43
5.9 本章小結    44
參考資料    44
第6章 排序數據對稱化:提高數據預測能力的統計數據挖掘方法    45
6.1 引言    45
6.2 量度範圍    45
6.3 莖葉圖    47
6.4 箱線圖    47
6.5 排序數據對稱處理方法的圖示    47
6.5.1 示例1    48
6.5.2 示例2    50
6.6 本章小結    56
參考資料    56
第7章 主成分分析:多變量評估的統計數據挖掘方法    57
7.1 引言    57
7.2 EDA重新表述範式    57
7.3 關鍵點    58
7.4 PCA基礎    58
7.5 示例詳解    58
7.6 PCA的代數特徵    59
7.7 一個不常見示例    60
7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析    61
7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析結果    61
7.8 用PCA構造準交互變量    62
7.9 本章小結    66
第8章 市場份額估算:一個特殊的數據挖掘案例    67
8.1 引言    67
8.2 背景    67
8.3 一個特殊的數據挖掘案例    68
8.4 構建RAL的YUM市場份額模型    69
8.4.1 市場份額模型的十分位分析    76
8.4.2 YUM_3mos市場份額模型的結論    76
8.5 本章小結    77
附錄8.A 生成 PROMO_Code啞變量    77
附錄8.B PROMO_Code啞變量的PCA    77
附錄8.C PROMO_Code啞變量上的邏輯斯諦回歸YUM_3mos    78
附錄8.D 生成YUM_3mos_wo_PROMO_CodeEff    78
附錄 8.E 將變量標準化為位於[0, 1]內    78
參考資料    79
第9章 相關係數在[-1,+1]內取值,是這樣嗎    80
9.1 引言    80
9.2 相關係數的基礎知識    80
9.3 計算相關係數    81
9.4 重新配對    82
9.5 計算經調整的相關係數    84
9.6 重新配對的意義    84
9.7 本章小結    84
第10章 邏輯斯諦回歸:回應建模方法    85
10.1 引言    85
10.2 邏輯斯諦回歸模型    86
10.2.1 示例    86
10.2.2 為LRM打分    87
10.3 案例分析    88
10.4 logit值和logit散點圖    89
10.5 校直數據的重要性    90
10.6 校直數據的重述    91
10.6.1 冪階梯法    91
10.6.2 突起規則    91
10.6.3 測量校直數據    92
10.7 校直示例數據    92
10.7.1 FD2_OPEN的重述    93
10.7.2 INVESTMENT的重述    94
10.8 在突起規則不適用的情況下選用的技術    95
10.8.1 擬合logit值散點圖    95
10.8.2 平滑預測值與實際值散點圖    96
10.9 MOS_OPEN的重述    96
10.10 評估變量的重要性    99
10.10.1 計算G統計量    99
10.10.2 單變量的重要性    100
10.10.3 變量子集合的重要性    100
10.10.4 不同變量子集合的重要性比較    100
10.11 案例的重要變量    101
10.12 變量的相對重要性    102
10.13 案例變量的子集合    103
10.14 模型預測準確性的可視化指標    104
10.14.1 得分組的平滑殘差散點圖    104
10.14.2 基於十分位組的平滑預測與實際值散點圖    106
10.14.3 基於得分組的平滑預測與實際值散點圖    108
10.15 評估數據挖掘工作    110
10.15.1 基於得分組的平滑殘差分佈圖:EDA模型與非EDA模型對比    110
10.15.2 基於十分位組的平滑預測與實際值散點圖:EDA模型與非EDA模型對比    112
10.15.3 基於得分組的平滑預測與實際值散點圖:EDA模型與非EDA模型對比    113
10.15.4 數據挖掘工作小結    113
10.16 平滑一個類別變量    114
10.16.1 用CHAID平滑FD_TYPE    115
10.16.2 CH_FTY_1和CH_FTY_2的重要性    116
10.17 本案例的其他數據挖掘工作    117
10.17.1 基於得分組的平滑殘差散點圖:4變量EDA模型與3變量EDA模型對比    117
10.17.2 基於十分位組的平滑預測與實際值散點圖:4變量EDA模型與3變量EDA模型對比    119
10.17.3 基於得分組的平滑預測與實際值散點圖:4變量EDA模型與3變量EDA模型對比    120
10.17.4 其他數據挖掘工作的總結    121
10.18 本章小結    121
第11章 無抽樣調研數據預測錢包份額    122
11.1 引言    122
11.2 背景    122
11.3 SOW_q計算過程    123
11.3.1 有趣的問題    124
11.3.2 金額和總金額    124
11.4 為AMPECS構建SOW_q模型    126
11.5 SOW_q模型的定義    127
11.6 本章小結    129
附錄11.A 六步法    129
附錄11.B 七步法    131
參考資料    134
第12章 普通回歸:利潤建模的強大工具    135
12.1 引言    135
12.2 普通回歸模型    135
12.2.1 說明    135
12.2.2 為OLS利潤模型評分    136
12.3 迷你案例    137
12.3.1 校直迷你案例的數據    137
12.3.2 平滑預測值散點圖與實際值散點圖    141
12.3.3 評估變量的重要性    142
12.4 迷你案例的重要變量    144
12.4.1 變量的相對重要性    144
12.4.2 選擇子集合    144
12.5 案例變量的子集合    145
12.5.1 用gINCOME和AGE構建PROFIT模型    146
12.5.2 PROFIT模型    148
12.6 抑制變量AGE    148
12.7 本章小結    149
參考資料    149
第13章 回歸變量選擇方法:可忽略的問題和重要解決方案    150
13.1 引言    150
13.2 背景    150
13.3 常用的變量選擇方法    152
13.4 分步法的缺陷    153
13.5 改進的變量選擇方法    154
13.6 本章小結    155
參考資料    155
第14章 用CHAID解讀邏輯斯諦回歸模型    157
14.1 引言    157
14.2 邏輯斯諦回歸模型    157
14.3 數據庫營銷回應模型案例研究    158
14.4 CHAID    159
14.5 多變量CHAID樹    161
14.6 CHAID市場細分    165
14.7 CHAID樹狀圖    165
14.8 本章小結    168
第15章 回歸係數的重要性    169
15.1 引言    169
15.2 普通回歸模型    169
15.3 四個問題    169
15.4 重要預測變量    170
15.5 p值與大數據    171
15.6 回到問題1    171
15.7 預測變量對預測結果的影響    171
15.8 提示    172
15.9 回到問題2    173
15.10 按照對預測的影響對預測變量排序    173
15.11 回到問題3    174
15.12 回到問題4    175
15.13 本章小結    175
參考資料    176
第16章 相關係數均值:評估預測模型和預測變量重要性的統計數據挖掘指標    177
16.1 引言    177
16.2 背景    177
16.3 可靠度和效度的區別    178
16.4 可靠度和效度的關係    178
16.5 平均相關係數    179
16.5.1 圖示LTV5模型的平均相關係數    179
16.5.2 LTV5模型的平均相關係數    183
16.5.3 LTV5模型比較    183
16.6 本章小結    184
參考資料    184
第17章 交互變量指定CHAID模型    185
17.1 引言    185
17.2 交互變量    185
17.3 交互變量建模策略    185
17.4 基於特殊點的策略    186
17.5 交互變量的回應模型示例    186
17.6 用CHAID找出關係    187
17.7 指定模型的CHAID    188
17.8 探索    191
17.9 數據庫含義    191
17.10 本章小結    192
參考資料    193
第18章 市場細分:邏輯斯諦回歸建模    194
18.1 引言    194
18.2 二值邏輯斯諦回歸    194
18.3 多分類邏輯斯諦回歸模型    195
18.4 使用PLR建模    196
18.5 市場細分的分類模型    196
18.5.1 移動電話用戶調研    196
18.5.2 CHAID分析    197
18.5.3 CHAID樹狀圖    199
18.5.4 市場細分分類模型    201
18.6 本章小結    202
第19章 市場細分:時間序列數據LCA    203
19.1 引言    203
19.2 背景    203
19.2.1 k均值聚類分析    203
19.2.2 主成分分析    204
19.2.3 因素分析    204
19.2.4 LCA與FA圖示    205
19.3 LCA    206
19.4 LCA與k均值聚類分析    208
19.5 用LCA對時間序列數據進行市場細分    210
19.5.1 目標    210
19.5.2 LCA模型    212
19.6 本章小結    216
附錄19.A 建立UNITS的趨勢3    217
附錄19.B POS-ZER-NEG建立趨勢4    219
參考資料    220
第20章 市場細分:理解細分群體的便捷途徑    221
20.1 引言    221
20.2 背景    221
20.3 示例    221
20.4 解讀各個細分市場    222
20.5 本章小結    223
附錄 20.A SAMPLE數據集    223
附錄 20.B 分類變量的均值     224
附錄 20.C 指數化數據     224
參考資料    225
第21章 統計回歸模型:理解模型的簡單方法    226
21.1 引言    226
21.2 背景    226
21.3 用於邏輯斯諦回歸模型的EZ法    227
21.4 邏輯斯諦回歸的EZ法示例的討論    228
21.5 本章小結    231
附錄21.A 基於M65分佈的X10~X14均值    231
附錄21.B 建立10個數據集(每個十分位區間一個)    232
附錄21.C 十分位的指數化信息    233
第22章 CHAID:填充缺失值的方法    238
22.1 引言    238
22.2 數據缺失問題    238
22.3 與數據缺失相關的假設    240
22.4 CHAID填充法    241
22.5 示例    242
22.5.1 連續變量的CHAID均值填充    242
22.5.2 面向連續變量的大量缺失值CHAID均值填充    243
22.5.3 LIFE_DOL的回歸樹填充    244
22.6 CHAID面向單個類別變量的似然類別填充    246
22.6.1 填充性別變量的CHAID似然類別法    246
22.6.2 填充性別變量的分類樹法    248
22.7 本章小結    250
參考資料    251
第23章 大數據建模    252
23.1 引言    252
23.2 背景    252
23.3 CCA-PCA分析法:具體案例    253
23.4 用完整數據集構建回應模型    255
23.5 用不完整數據集構建回應模型    256
23.6 基於PCA-BICA數據構建回應模型    258
23.6.1 基於主成分分析並經二值轉換的不完整數據回應模型分析結果    259
23.6.2 綜合CCA與PCA-BICA的回應模型結果    259
23.7 本章小結    260
附錄23.A NMISS    261
附錄23.B 測試完整樣本分析法的樣本大小    261
附錄23.C CCA-CIA數據集    261
附錄23.D 1和0    262
參考資料    262
第24章 藝術、科學、數字和詩歌    263
24.1 引言    263
24.2 零和一    264
24.3 思考的力量    264
24.4 統計黃金法則:衡量統計實踐的藝術和科學    266
24.5 本章小結    268
參考資料    268
第25章 識別客戶:描述性、預測性和相似性描述    269
25.1 引言    269
25.2 相關概念    269
25.3 對有缺陷的客戶進行描述    269
25.4 清晰有效的客戶定位    270
25.5 預測性分析    272
25.6 連續變量樹狀圖    275
25.7 相似人群擴展分析    277
25.8 相似樹狀圖的特點    279
25.9 本章小結    279
第26章 營銷模型評估    281
26.1 引言    281
26.2 回應模型的準確度    281
26.3 利潤模型的準確度    282
26.4 回應模型的十分位分析與累積提升度    283
26.5 利潤模型的十分位分析與累積提升度    284
26.6 回應模型的精確度    286
26.7 利潤模型的精確度    287
26.8 回應模型和利潤模型的分離性    288
26.9 累積提升度、HL/SWMAD指數以及離散係數的應用指南    288
26.10 本章小結    289
第27章 十分位分析:視角與效果    290
27.1 引言    290
27.2 背景    290
27.3 性能評估:回應模型與隨機選擇    293
27.4 性能評估:十分位分析    293
27.5 本章小結    298
附錄 27.A 計算準確度收益:模型與隨機    298
附錄27.B 計算精確度收益:模型與隨機    300
附錄27.C 回應模型PROB_est值的十分位分析    301
附錄27.D 2×2 十分位表    302
參考資料    305
第28章 T-C淨提升度模型:評估試驗組與對照組的營銷效果    306
28.1 引言    306
28.2 背景    306
28.3 試驗營銷與對照營銷回應模型的建模    308
28.3.1 試驗組回應模型建模    308
28.3.2 對照組回應模型建模    310
28.4 T-C淨提升度模型    311
28.5 本章小結    315
附錄28.A 用Xs做TEST Logistic    315
附錄28.B 用Xs做CONTROL Logistic    318
附錄28.C 合併計算    320
附錄28.D T-C淨提升度十分位分析    321
參考資料    325
第29章 自助法在營銷中的應用:一種新的模型驗證方法    327
29.1 引言    327
29.2 傳統模型驗證    327
29.3 示例    327
29.4 三個問題    329
29.5 自助法    329
29.6 如何使用自助法    330
29.7 自助法十分位分析驗證    332
29.8 其他問題    333
29.9 用自助法評估模型性能    334
29.10 用自助法評估模型效力    337
29.11 本章小結    338
參考資料    339
第30章 用自助法驗證邏輯斯諦回歸模型    340
30.1 引言    340
30.2 邏輯斯諦回歸模型    340
30.3 如何用自助法進行驗證    340
30.4 本章小結    341
參考資料    341
第31章 營銷模型可視化:用數據深度挖掘模型    342
31.1 引言    342
31.2 圖形簡史     342
31.3 星形圖基礎    343
31.4 單變量星形圖    345
31.5 多變量星形圖    346
31.6 剖面曲線法    346
31.6.1 剖面曲線基礎    347
31.6.2 剖面分析    347
31.7 示例    348
31.7.1 回應模型的剖面曲線    349
31.7.2 十分位組剖面曲線    351
31.8 本章小結    353
附錄31.A 十分位各人口變量的星形圖    353
附錄31.B 人口變量各十分位的星形圖    355
附錄31.C 剖面曲線:各十分位    358
參考資料    360
第32章 預測貢獻係數:預測重要性的度量     361
32.1 引言    361
32.2 背景    361
32.3 判定規則示例    362
32.4 預測貢獻係數    364
32.5 預測貢獻係數的計算    365
32.6 預測貢獻係數的另一示例    366
32.7 本章小結    369
參考資料    369
第33章 建模是藝術、科學與詩的結合    370
33.1 引言    370
33.2 靈感來源於莎士比亞的詩    370
33.3 解讀    371
33.4 本章小結    373
參考資料    373
第34章 獻給數據狂的數據分析12步法     375
34.1 引言    375
34.2 背景    375
34.3 步驟    376
34.4 標記    376
34.5 本章小結    377
附錄34.A 數據集IN    377
附錄34.B Samsize+    378
附錄34.C 可粘貼副本    378
附錄34.D 缺失數據    378
參考資料    379
第35章 遺傳回歸模型與統計回歸模型     380
35.1 引言    380
35.2 背景    380
35.3 目標    380
35.4 GenIQ模型:遺傳邏輯斯諦回歸    381
35.5 遺傳編程法的發展    383
35.6 GenIQ模型的目標及重要特性    384
35.7 GenIQ模型工作原理    385
35.8 本章小結    387
參考資料    388
第36章 數據重用:GenIQ模型的強大數據挖掘技術    389
36.1 引言    389
36.2 數據重用    389
36.3 示例    389
36.3.1 GenIQ利潤模型    390
36.3.2 數據重用變量簡介    391
36.3.3 數據重用變量GenIQvar_1和GenIQvar_2    392
36.4 調整數據重用定義:GenIQ強化版回歸模型    393
36.5 本章小結    395
第37章 數據挖掘技術——離群值的調整    396
37.1 引言    396
37.2 背景    396
37.3 離群值的調整    397
37.3.1 調整離群值的示例    397
37.3.2 GenIQ模型在調整離群值中的作用    399
37.4 本章小結    399
參考資料    399
第38章 過擬合的全新解決方案     400
38.1 引言    400
38.2 背景    400
38.3 利用GenIQ模型解決過擬合問題    402
38.3.1 RANDOM_SPLIT的GenIQ模型    403
38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析    404
38.3.3 類N層分析    405
38.4 本章小結    406
第39章 回顧:為何校直數據如此重要    407
39.1 引言    407
39.2 重申校直數據的重要性    407
39.3 回顧:重述收入變量    408
39.4 回顧:挖掘(xx3,yy3)關係    409
39.5 本章小結    410
第40章 GenIQ 模型的定義與應用    411
40.1 引言    411
40.2 何為優化    411
40.3 何為遺傳建模    412
40.4 遺傳建模示例    412
40.4.1 複製    414
40.4.2 交叉    414
40.4.3 突變    415
40.5 控制遺傳模型運行的參數    416
40.6 遺傳建模的優勢與限制    416
40.7 營銷建模的目標    416
40.8 GenIQ回應模型    417
40.9 GenIQ利潤模型    417
40.10 案例研究:回應模型    418
40.11 案例研究:利潤模型    420
40.12 本章小結    423
參考資料    423
第41章 如何為營銷模型選擇變量    424
41.1 引言    424
41.2 背景    424
41.3 變量選擇方法的缺陷    425
41.4 營銷模型的目標    427
41.5 用GenIQ進行變量選擇    427
41.5.1 GenIQ建模    429
41.5.2 GenIQ模型結構的辨別    430
41.5.3 GenIQ模型變量選擇    433
41.6 邏輯斯諦回歸模型的非線性替代方法    434
41.7 本章小結    436
參考資料    437
第42章 解讀無係數模型    438
42.1 引言    438
42.2 線性回歸係數    438
42.2.1 簡單普通回歸模型示例    439
42.2.2 簡單邏輯斯諦回歸模型示例    439
42.3 簡單回歸模型的準回歸係數    440
42.3.1 簡單回歸模型的準回歸係數示例    440
42.3.2 簡單邏輯斯諦回歸模型的準回歸係數示例    440
42.3.3 非線性預測中的準回歸係數示例    441
42.4 偏準回歸係數    443
42.4.1 普適型偏回歸係數的計算方法    443
42.4.2 多元邏輯斯諦回歸模型示例    444
42.5 無係數模型的準回歸係數    449
42.6 本章小結    454
第43章 文本挖掘:入門、示例及TXTDM軟件    455
43.1 引言    455
43.2 背景    455
43.3 文本挖掘入門    457
43.4 與文本相關的統計量    458
43.5 文本轉換中的二進制數據集    459
43.6 TXTDM文本挖掘程序示例    459
43.7 對文本挖掘模型GenIQ_FAVORED的分析    467
43.7.1 用文字描述更喜歡GenIQ模型的受訪者    468
43.7.2 用文字描述更喜歡其他兩種模型的受訪者    468
43.8 對TXTDM程序加權    469
43.9 文檔聚類    469
43.10 本章小結    475
附錄43.A 加載Corpus TEXT數據集    476
附錄43.B 創建二進制詞的中間步驟    476
附錄43.C 創建最終的二進制詞    477
附錄43.D 計算統計量TF、DF、NUM_DOCS和N    478
附錄43.E 將GenIQ_FAVORED加入WORDS數據集    479
附錄43.F GenIQ_FAVORED的邏輯斯諦分析模型    480
附錄43.G 計算字詞之間的關係數均值    481
附錄43.H 創建TF-IDF    482
附錄43.I 用WORDS和TF-IDF的Concat計算WORD_TF-IDF權重    484
附錄43.J WORD_RESP與WORD_TF-IDF RESP    485
附錄43.K 詞幹提取    486
附錄43.L WORD乘以TF-IDF    486
附錄43.M 用剖面的字詞對數據集賦權    487
附錄43.N 兩類法VARCLUS    487
附錄43.O 雙集群法VARCLUS    488
附錄43.P 集群1字詞的指向    489
附錄43.Q 比較GenIQ模型和隨機模型的表現    490
附錄43.R 比較自由集群模型和隨機模型的表現    491
參考資料    491
第44章 一些我比較喜歡的統計子程序    492
44.1 子程序列表    492
44.2 第5章的平滑散點圖(平均值和中位數)—X1和X2    492
44.3 第10章的平滑散點圖—logit值和概率    496
44.4 第16章的平均相關係數—變量Var1、Var2、Var3    499
44.5 第29章的自助法十分位分析—數據來自表23.4(表44.2)    500
44.6 第42章的H幅度共有區域    508
44.7 選項排序、垂直輸出的相關性分析    510
44.8 回應模型十分位分析    511
44.9 利潤模型十分位分析    515
44.10 平滑時間序列分析數據(三變量的動態中位數)    518
44.11 大量高偏度變量的分析    522
譯後記    524