大話數據科學——大數據與機器學習實戰(基於R語言)

陳文賢

  • 大話數據科學——大數據與機器學習實戰(基於R語言)-preview-1
  • 大話數據科學——大數據與機器學習實戰(基於R語言)-preview-2
  • 大話數據科學——大數據與機器學習實戰(基於R語言)-preview-3
大話數據科學——大數據與機器學習實戰(基於R語言)-preview-1

買這商品的人也買了...

相關主題

商品描述

本書以獨特的方式講解數據科學,不僅讓讀者可以輕鬆學習數據科學理論,
又可以動手(手算和機算)進行數據科學實戰。
本書特色:全彩印刷,圖形、表格、思維導圖豐富;避免深奧的數學證明,採用簡單的數學說明;
用各種學習圖將本書內容貫穿起來;實戰計算,包含小型數據的演算和大型數據的實戰程序。

本書共13章,內容涵蓋豐富的數據科學模型,包含關聯分析、聚類分析、貝葉斯分類、近鄰法、
決策樹、降維分析、回歸模型等算法。利用小數據例題介紹計算步驟,同時用R語言驗證計算結果。
另外,也有大數據的案例數據,例如:推薦系統、支持向量機、集成學習等。
另外,本書只有大數據的案例數據用R語言計算。

本書適合各個專業領域(包含金融、電商、保險、因特網等行業)想掌握數據科學的讀者,
也可以作為高校、社會培訓機構教材。
由於內容比較多,教師可自行選擇教學內容。
 

作者簡介

陳文賢

美國加州大學伯克利分校工業工程博士,歷任:台大信息管理系教授兼系主任、
美國雪城Syracuse大學客座教授、澳大利亞悉尼科技大學UTS客座教授、
台北德明財經科技大學信息管理系特聘教授。

目錄大綱

第一篇基礎篇
第1章大數據概述3
1.1大數據與相關學科的定義4
1.1.1大數據的定義4
1.1.2數據挖掘6
1.1.3數據挖掘標準過程7
1.1.4機器學習9
1.1 .5知識管理12
1.1.6數據科學14
1.1.7商業智能15
1.1.8人工智能17
1.1.9統計學與大數據比較19
1.1.10數據名詞的定義21
1.2系統與模型概念22
1.2.1系統定義與成分22
1.2.2輸入,處理,輸出與黑箱23
1.2.3環境24
1.2.4反饋25
1.2.5效率與效果25
1.2.6模型與建模26
1.2.7模型的假定與參數27
1.2.8敏感,穩健或魯棒28
1.2.9模型的過擬合28
1.3大數據分析模型的分類30
1.3.1後設模型30
1.3.2關係與因果31
1.3.3基於因果關係的統計學分類32
1.3.4基於因果關係的大數據分類32
1.3.5基於數據類型的分類34
1.3.6基於測量的分類35
1.3.7數據科學模型的其他分類36
1.4大數據的江湖傳奇36
1.5 R語言“詞云圖”代碼40
1.6本章思維導圖42

第2章大數據與R語言43
2.1大數據進位44
2.2 R語言介紹45
2.2.1安裝R語言軟件45
2.2.2下載R語言程序包45
2.3 R數據對象的屬性與結構46
2.3.1數值47
2.3.2整數47
2.3.3字符串47
2.3.4邏輯47
2.3. 5向量48
2.3.6因子49

2.3.7矩陣50
2.3.8數據框52
2.3.9數組52
2.3.10列表53
2.3.11時間序列54
2.3.12訪問數據類型和結構54
2.3.13遺失值55
2.3.14讀入Excel CSV數據55
2.3.15編輯數據55
2.3.16保存Excel CSV數據55
2.3.17數據輸入窗口56
2.3.18 R的數據結構和函數表56
2.4 R的函數包56
2.5 R的數據繪圖59
2.6本章思維導圖64

第二篇非監督式學習
第3章關聯分析67
3.1關聯分析介紹68
3.1.1事務與項目的定義68
3.1.2項集的關聯規則69
3.2關聯規則數據格式71
3.3關聯規則的算法72
3.3.1 Apriori算法73
3.3.2關聯規則其他測度值74
3.3.3負關聯規則75
3.4關聯規則的優點和缺點76
3.4.1 Apriori算法的優點76
3.4.2 Apriori算法的缺點76
3.4.3關聯規則的評估76
3.5關聯規則的實例計算77
3.5.1尿布與啤酒77
3.5.2豆漿、燒餅與飯糰79
3.5.3評估與應用82
3.6 R語言實戰82
3.6.1泰坦尼克號82
3.6.2商店數據86
3.6.3食品雜貨數據90
3.6.4人口收入數據92
3.6.5鳶尾花數據93
3.7本章思維導圖96

第4章聚類分析97
4.1聚類分析介紹98
4.2距離與相似度衡量99
4.2.1數值數據距離99
4.2.2標準化與歸一化100
4.2.3 0-1數據距離和相似度100
4.2.4混合數據的距離102
4.2.5顧客數據的距離102
4.2.6距離和相似度的轉換104
4.2.7計算距離的R函數104
4.3層次聚類分析106
4.3.1兩類連接106
4.3.2顧客數據的聚類107
4.3.3層次聚類的優點和缺點110
4.4非層次聚類分析110
4.4.1 K-mean聚類110
4.4.2 PAM聚類112
4.4.3 K-mean聚類的優點和缺點113
4.5聚類分析的評價113
4.6 R語言實戰115
4.6.1歐洲語言的聚類115
4.6.2美國電力公司數據118
4.6.3歐州人蛋白質數據120
4.6.4紅酒數據124
4.6.5汽車數據126
4.7本章思維導圖128

第5章降維分析129
5.1降維分析介紹130
5.2主成分分析131
5.2.1主成分分析的計算理論132
5.2.2主成分分析的計算步驟134
5.2.3主成分分析的優點和缺點134
5.3 R語言程序135
5.4 R語言實戰138
5.4.1鳶尾花數據138
5.4.2美國罪犯數據138
5.4.3美國法官數據145
5.4.4國家冰球聯盟資料146
5.4.5美國職業棒球數據149
5.4.6早餐麥片數據151
5.4.7紅酒數據151
5.4.8心理學數據152
5.5本章思維導圖154

第三篇監督式學習
第6章模型選擇與評價157
6.1模型選擇與評價步驟158
6.2大數據的抽樣方法159
6.2.1保留方法抽樣160
6.2.2自助抽樣法162
6.2.3 632自助法163
6.2.4過採樣164
6.3交叉驗證165
6.3.1 k-折交叉驗證165
6.3.2留一交叉驗證166
6.4模型選擇167
6.4.1參數和非參數學習168
6.4.2偏差和方差169
6.4.3模型的複雜度170
6.4.4正則化171
6.4.5認真學習和懶惰學習171
6.5模型評價172
6.5.1二元0-1分類器的評價——混淆矩陣172
6.5.2混淆矩陣的舉例說明174
6.5.3二元分類器的成本計算176
6.5.4二元分類器例題數據R語言176
6.5.5多標籤分類器的評價179
6.5.6多標籤分類器評價R語言181
6.5.7交叉驗證分類的評價183
6.5. 8分類學習的ROC曲線183
6.5.9連續型目標變量回歸模型的評價187
6.6 R語言實戰189
6.6.1 R語言自動調模與調參189
6.6.2汽車數據190
6.6.3乳腺癌診斷數據190
6.7本章思維導圖192

第7章回歸分析193
7.1多元線性回歸194
7.1.1多元線性回歸模型194
7.1.2參數估計195
7.1.3適合性檢驗196
7.1.4實例計算197
7.1.5 R語言的實例計算199
7.2變量(特徵)選擇200
7.2.1偏相關係數200
7.2.2逐步回歸203
7.2.3部分子集回歸204
7.2.4壓縮方法205
7.3 Logistic邏輯回歸207
7.4 R語言實戰209
7.4.1股票數據209
7.4.2乳腺癌病理數據210
7.4.3醫療保險數據213
7.4.4棒球數據215
7.4.5波士頓房價數據218
7.4.6皮瑪數據221
7.5本章思維導圖224

第8章近鄰法225
8.1學習器226
8.1.1認真學習器和懶惰學習器226
8.1.2基於實例學習器227
8.1.3參數學習器和非參數學習器228
8.2近鄰法介紹229
8.2.1 k-近鄰法算法步驟229
8.2.2 k-近鄰法分類器230
8.2.3 k-近鄰法回歸231
8.2.4自變量是分類變量232
8.3近鄰法的優點和缺點232
8.4 R語言實戰233
8.4.1食材數據233
8.4.2鳶尾花數據234
8.4.3乳癌檢查數據236
8.4.4美國總統候選人數據238
8.4.5玻璃數據240
8.4.6波士頓房價數據241
8.4.7皮瑪數據242
8.5本章思維導圖244

第9章貝葉斯分類245
9.1貝葉斯公式246
9.2貝葉斯分類247
9.2.1樸素貝葉斯分類247
9.2 .2特徵值是連續變量248
9.2.3樸素貝葉斯分類的優點和缺點249
9.3貝葉斯分類的實例計算249
9.3.1天氣和打網球249
9.3.2驗前概率與似然概率251
9.3 .3拉普拉斯校準251
9.3.4 R語言實例計算252
9.4 R語言實戰255
9.4.1泰坦尼克號數據255
9.4.2鳶尾花數據256
9.4.3垃圾郵件數據258
9.4.4皮瑪數據261
9.5本章思維導圖262

第10章決策樹263
10.1決策樹概述264
10.1.1圖形表示264
10.1.2邏輯表示265
10.1.3規則表示265
10.1.4數學公式表示265
10.2決策樹的信息計算266
10.2 .1信息計算266
10.2.2熵與信息267
10.2.3信息增益267
10.2.4信息增益比268
10.2.5基尼係數與基尼增益268
10.2.6卡方統計量269
10.2.7分枝法則的選擇269
10.2.8回歸樹269
10.3決策樹的實例計算270
10.4決策樹的剪枝277
10.4.1貪婪算法277
10.4.2決策樹剪枝278
10.5決策樹的優點和缺點279
10.6 R語言實戰280
10.6.1決策樹R語言包280
10.6.2打網球數據280
10.6.3泰坦尼克號數據283
10.6.4鳶尾花數據284
10.6.5皮瑪數據289
10.6.6汽車座椅銷售數據292
10.6.7波士頓房價數據295
10.6.8貓數據297
10.6.9駝背數據300
10.6.10美國總統選舉投票數據301
10.6.11員工離職數據302
10.7本章思維導圖306

第11章支持向量機307
11.1支持向量機概述308
11.2最大間隔分類(硬間隔) 310
11.3支持向量分類(軟間隔) 311
11.4支持向量機(核函數) 313
11.4.1支持向量機的核函數313
11.4.2多元分類支持向量機315
11.5支持向量機的優點和缺點315
11.6支持向量機R語言應用316
11.6.1隨機正態分佈數據線性核函數317
11.6.2隨機正態分佈數據徑向基核函數318
11.6.3三分類數據徑向基核函數321
11.7 R語言實戰322
11.7.1基因表達數據322
11.7.2鳶尾花數據322
11.7.3貓數據323
11.7.4皮瑪數據325
11.7.5字符數據328
11.7.6玻璃數據329
11.8本章思維導圖332

第12章集成學習333
12.1集成學習介紹334
12.2個別分類方法評價335
12.3 Bagging學習337
12.4隨機森林338
12.4.1隨機森林介紹338
12.4.2隨機森林算法步驟339
12.4.3 R語言339
12.4.4隨機森林的優點和缺點340
12.4.5非監督式學習-鳶尾花數據340
12.4.6美國大學數據341
12.5 Boosting學習342
12.6 Stacking學習343
12.6.1皮瑪數據343
12.6.2員工離職數據344
12.7 R語言實戰345
12.7.1紅酒數據345
12.7.2信用數據347
12.7.3皮瑪數據348
12.7.4波士頓房價數據349
12.7.5汽車座椅數據352
12.7.6顧客流失數據353
12.8本章思維導圖356

第13章推薦系統357
13.1推薦系統概述358
13.2過濾推薦359
13.2.1相似度360
13.2.2基於用戶的協同過濾360
13.2.3基於項目的協同過濾361
13.2.4協同過濾的評價362
13.2.5協同過濾的優點和缺點363
13.2.6混合的推薦機制364
13.3 R語言應用365
13.3.1推薦系統R語言包365
13.3.2 recommenderlab函數程序366
13.3.3模擬數據367
13.4 R語言實戰369
13.4.1電影數據369
13.4.2笑話數據373
13.5本章思維導圖378
結語379
參考文獻381