預測分析與數據挖掘 RapidMiner 實現 (Predictive Analytics and Data Mining: Concepts and Practice with RapidMiner)

[美]瓦傑·考圖 巴拉·達什潘德

買這商品的人也買了...

商品描述

《預測分析與數據挖掘 RapidMiner實現》旨在幫助讀者理解數據挖掘方法的基礎知識,並實現無需編寫代碼就能在自己的工作中實踐這些方法。書中圍繞分類、回歸、關聯分析、聚類、異常檢測、文本挖掘、時間序列預測、特徵分析等數據挖掘問題,著重介紹了決策樹、k近鄰、人工神經網絡、線性回歸、k均值聚類等當今廣泛使用的二十多種算法,針對每一種算法都先以通俗的語言解釋其原理,再使用開源數據分析工具 RapidMiner加以實現。
《預測分析與數據挖掘 RapidMiner實現》適合在日常工作中大量接觸數據的分析師、金融專家、市場營銷人員、商務專業人士等閱讀。

作者簡介

作者:[美]瓦杰·考圖(Vijay Kotu)巴拉·達什潘德(Bala Deshpande)譯者:嚴云
Vijay Kotu,Yahoo分析總監,負責線上業務的大數據與分析系統的實現,在預測分析領域有十餘年工作經驗。ACM會員,美國質量協會認證的六西格瑪黑帶。

Bala Deshpande,業界知名數據分析應用開發與諮詢公司SimaFore創始人,20餘年分析經驗,精通各類分析技巧,經常在其博客www.simafore.com/blog上分享數據挖掘與預測分析方面的心得。
 

目錄大綱

第1章引言1 
1.1什麼是數據挖掘2 
1.1.1有意義模式的提取2 
1.1.2代表性模型的構建2 
1.1.3統計、機器學習和計算的搭配3 
1.1.4算法4 
1.2對數據挖掘的誤解4 
1.3數據挖掘的初衷5 
1.3.1海量數據5 
1.3.2多維6 
1.3.3複雜問題6 
1.4數據挖掘的種類7 
1.5數據挖掘的算法8 
1.6後續章節導覽9 
1.6.1數據挖掘的序曲9 
1.6.2小插曲10 
1.6.3主要內容:預測分析和數據挖掘算法10 
1.6.4特別應用12 
參考文獻13 

第2章數據挖掘流程14 
2.1先驗知識16 
2.1.1目標16 
2.1.2研究問題的背景17 
2.1.3數據17 
2.1.4因果性與相關性18 
2.2數據準備19 
2.2.1數據探索19 
2.2.2數據質量20 
2.2.3缺失值20 
2.2.4數據類型和轉換20
2.2.5數據轉換21 
2.2.6離群點21 
2.2.7特徵選擇21 
2.2.8數據採樣22 
2.3建模22 
2.3.1訓練集和測試集23 
2.3.2建模算法24 
2.3.3模型評估25 
2.3.4集成建模26 
2.4應用27 
2.4.1生產準備27 
2.4.2方法整合27 
2.4.3響應時間28 
2.4.4重構模型28 
2.4.5知識融合28 
2.5新舊知識29 
2.6後續章節預告29 
參考文獻29 

第3章數據探索31 
3.1數據探索的目標31 
3.2走進數據32 
3.3描述性統計分析34 
3.3.1單變量探索35 
3.3.2多變量探索36 
3.4數據可視化39 
3.4.1一個維度內數據頻率分佈的可視化39 
3.4.2直角坐標系內多變量的可視化43 
3.4.3高維數據通過投影的可視化48 
3.5數據探索導覽50 
參考文獻51 

第4章分類52
4.1決策樹52 
4.1.1算法原理53 
4.1.2算法實現59 
4.1.3小結71 
4.2規則歸納72 
4.2.1建立規則方法73 
4.2.2算法原理74 
4.2.3算法實現77 
4.2.4小結81 
4.3 k近鄰算法81 
4.3.1算法原理82 
4.3.2算法實現88 
4.3.3小結91 
4.4樸素貝葉斯91 
4.4.1算法原理93 
4.4.2算法實現100 
4.4.3小結102 
4.5人工神經網絡102 
4.5 .1算法原理105 
4.5.2算法實現108 
4.5.3小結110 
4.6支持向量機111 
4.6.1概念和術語111 
4.6.2算法原理114 
4.6.3算法實現116 
4.6.4小結122 
4.7集成學習模型122 
4.7.1集體的智慧123 
4.7.2算法原理124 
4.7.3算法實現126 
4.7.4小結134 
參考文獻134

第5章回歸方法137 
5.1線性回歸139 
5.1.1算法原理139 
5.1.2使用RapidMiner實戰的目標與數據141 
5.1.3算法實現142 
5.1.4線性回歸建模要點148 
5.2 Logistic回歸149 
5.2.1快速入門Logistic回歸150 
5.2.2模型原理151 
5.2.3模型實現155 
5.2.4 Logistic回歸小結158 
5.3總結158 
參考文獻158 

第6章關聯分析160 
6.1挖掘關聯規則的基本概念161 
6.1.1項集162 
6.1 .2生成關聯規則的一般步驟164 
6.2 Apriori算法166 
6.2.1使用Apriori算法找出高頻項集167 
6.2.2生成關聯規則169 
6.3 FP-Growth算法169 
6.3.1生成FP樹170 
6.3.2高頻項集的生成172 
6.3.3 FP-Growth算法實現173 
6.4總結176 
參考文獻176 

第7章聚類178 
7.1聚類方法的種類179
7.2 k均值聚類182 
7.2.1 k均值聚類原理183 
7.2.2算法實現187 
7.3 DBSCAN聚類191 
7.3.1算法原理192 
7.3.2算法實現195 
7.3.3小結197 
7.4 SOM 197 
7.4.1算法原理199 
7.4.2算法實現202 
7.4.3小結208 
參考文獻208 

第8章模型評估210 
8.1混淆矩陣210 
8.2 ROC曲線和AUC 212 
8.3提升曲線214 
8.4評估預測結果217 
8.5總結221 
參考文獻221 

第9章文本挖掘222 
9.1文本挖掘算法的原理223 
9.1.1 TF-IDF 223 
9.1.2術語和概念225 
9.2使用聚類和分類算法實現文本挖掘229 
9.2.1實例1:關鍵詞聚類229 
9.2.2實例2:預測博客作者的性別232 
9.3總結241 
參考文獻242 

第10章時間序列預測243 
10.1基於數據的時序分析245
10.1.1樸素預測法245 
10.1.2簡單平均法246 
10.1.3移動平均法246 
10.1.4加權移動平均法247 
10.1.5指數平滑法247 
10.1.6 Holt雙參數指數平滑法. . 248 
10.1. 7 Holt-Winter三參數指數平滑法249 
10.2基於模型的預測方法250 
10.2.1線性回歸251 
10.2.2多項式回歸252 
10.2.3考慮季節性的線性回歸模型252 
10.2.4自回歸模型與ARIMA 254 
10.2 .5基於RapidMiner的實現254 
10.3總結261 
參考文獻261 

第11章異常檢測262 
11.1異常檢測的基本概念262 
11.1.1出現離群點的原因262 
11.1.2異常檢測的方法264 
11.2基於距離的離群點檢測方法266 
11.2.1方法原理267 
11.2.2方法實現268 
11.3基於密度的離群點檢測方法270 
11.3.1方法原理270 
11.3.2方法實現271 
11.4局部離群因子272 
11.5總結274
參考文獻275 

第12章特徵選擇276 
12.1特徵選擇方法概覽276 
12.2主成分分析278 
12.2.1算法原理279 
12.2.2算法實現280 
12.3以信息論為基礎對數值型數據進行篩選284 
12.4以卡方檢驗為基礎對類別型數據進行篩選286 
12.5基於封裝器的特徵選擇289 
12.5.1向後消除法以縮減數據集大小290 
12.5.2哪些變量被消除了292 
12.6總結293 
參考文獻294 

第13章RapidMiner入門295 
13.1用戶操作界面以及介紹295 
13.1.1圖形用戶操作界面的介紹295 
13.1.2 RapidMiner軟件的術語296 
13.2數據導入和導出工具299 
13.3數據可視化工具302 
13.3.1單一變量可視化304 
13.3.2二維數據可視化304 
13.3.3多維數據可視化304 
13.4數據轉換工具305 
13.5數據抽樣與處理缺失值工具309 
13.6優化工具312 
13.7總結317 
參考文獻317
數據挖掘算法的比較319