預測分析與數據挖掘 RapidMiner 實現 (Predictive Analytics and Data Mining: Concepts and Practice with RapidMiner)

[美]瓦傑·考圖巴拉·達什潘德

出版商: 人民郵電
出版日期: 2018-01-01
售價: $594
語言: 簡體中文
頁數: 325
裝訂: 平裝
ISBN: 7115473668
ISBN-13: 9787115473660
相關分類: Data-mining
此書翻譯自: Predictive Analytics and Data Mining: Concepts and Practice with RapidMiner (Paperback)

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$1,200~~ $948

JavaScript 大全, 6/e (JavaScript: The Definitive Guide: Activate Your Web Pages, 6/e)
~~$940~~ $700

無瑕的程式碼－敏捷軟體開發技巧守則 + 番外篇－專業程式設計師的生存之道 (雙書合購)
~~$320~~ $249

Kent Beck 的實作模式 (Implementation Patterns)
$474

Tableau 8 權威指南
~~$534~~ $507

貝葉斯方法：概率編程與貝葉斯推斷 (Bayesian Methods for Hackers: Probabilistic Programming and Bayesian Inference)
~~$790~~ $616

無瑕的程式碼－敏捷完整篇－物件導向原則、設計模式與 C# 實踐 (Agile principles, patterns, and practices in C#)
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
$249

深度學習與 R語言
~~$520~~ $442

Soft Skills 軟實力｜軟體開發人員的生存手冊 (Soft Skills: The software developer's life manual)
~~$450~~ $270

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
~~$500~~ $390

為你自己學 Git
$294

深度學習精要基於R語言
~~$680~~ $578

比 VM 粒度更細的 Container 時代來臨 : 使用 Docker 不再需要架設系統, 2/e
~~$380~~ $323

文科生也看得懂的資料科學
~~$580~~ $452

無瑕的程式碼－整潔的軟體設計與架構篇 (Clean Architecture: A Craftsman's Guide to Software Structure and Design)
$402

Python 自然語言處理
~~$420~~ $357

MIS 一定要懂的 82個伺服器建置與管理知識
~~$69~~ $60

I'm From Taiwan / Programmer 阿喵宅造型貼紙7X7公分 (粉色)
$708

基於 RapidMiner 的商業智能實踐
~~$68~~ $68

阿喵宅開發順利春聯 2入
~~$520~~ $468

白話演算法！培養程式設計的邏輯思考 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$880~~ $695

比 Docker 再高階一步：使用 Harbor 完成 Helm Chart 容器及鏡像雲端原生管理
~~$599~~ $509

資料科學的建模基礎 : 別急著 coding！你知道模型的陷阱嗎？
~~$630~~ $535

大數據驅動商業決策 - 13個 RapidMiner 商業預測操作實務
~~$1,250~~ $987

LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)

商品描述

《預測分析與數據挖掘 RapidMiner實現》旨在幫助讀者理解數據挖掘方法的基礎知識，並實現無需編寫代碼就能在自己的工作中實踐這些方法。書中圍繞分類、回歸、關聯分析、聚類、異常檢測、文本挖掘、時間序列預測、特徵分析等數據挖掘問題，著重介紹了決策樹、k近鄰、人工神經網絡、線性回歸、k均值聚類等當今廣泛使用的二十多種算法，針對每一種算法都先以通俗的語言解釋其原理，再使用開源數據分析工具 RapidMiner加以實現。
《預測分析與數據挖掘 RapidMiner實現》適合在日常工作中大量接觸數據的分析師、金融專家、市場營銷人員、商務專業人士等閱讀。

作者簡介

作者:[美]瓦傑·考圖（Vijay Kotu）巴拉·達什潘德（Bala Deshpande）譯者:嚴雲
Vijay Kotu，Yahoo分析總監，負責線上業務的大數據與分析系統的實現，在預測分析領域有十餘年工作經驗。ACM會員，美國質量協會認證的六西格瑪黑帶。

Bala Deshpande，業界知名數據分析應用開發與諮詢公司SimaFore創始人，20餘年分析經驗，精通各類分析技巧，經常在其博客www.simafore.com/blog上分享數據挖掘與預測分析方面的心得。

目錄大綱

第1章引言1
1.1什麼是數據挖掘2
1.1.1有意義模式的提取2
1.1.2代表性模型的構建2
1.1.3統計、機器學習和計算的搭配3
1.1.4算法4
1.2對數據挖掘的誤解4
1.3數據挖掘的初衷5
1.3.1海量數據5
1.3.2多維6
1.3.3複雜問題6
1.4數據挖掘的種類7
1.5數據挖掘的算法8
1.6後續章節導覽9
1.6.1數據挖掘的序曲9
1.6.2小插曲10
1.6.3主要內容：預測分析和數據挖掘算法10
1.6.4特別應用12
參考文獻13

第2章數據挖掘流程14
2.1先驗知識16
2.1.1目標16
2.1.2研究問題的背景17
2.1.3數據17
2.1.4因果性與相關性18
2.2數據準備19
2.2.1數據探索19
2.2.2數據質量20
2.2.3缺失值20
2.2.4數據類型和轉換20
2.2.5數據轉換21
2.2.6離群點21
2.2.7特徵選擇21
2.2.8數據採樣22
2.3建模22
2.3.1訓練集和測試集23
2.3.2建模算法24
2.3.3模型評估25
2.3.4集成建模26
2.4應用27
2.4.1生產準備27
2.4.2方法整合27
2.4.3響應時間28
2.4.4重構模型28
2.4.5知識融合28
2.5新舊知識29
2.6後續章節預告29
參考文獻29

第3章數據探索31
3.1數據探索的目標31
3.2走進數據32
3.3描述性統計分析34
3.3.1單變量探索35
3.3.2多變量探索36
3.4數據可視化39
3.4.1一個維度內數據頻率分佈的可視化39
3.4.2直角坐標系內多變量的可視化43
3.4.3高維數據通過投影的可視化48
3.5數據探索導覽50
參考文獻51

第4章分類52
4.1決策樹52
4.1.1算法原理53
4.1.2算法實現59
4.1.3小結71
4.2規則歸納72
4.2.1建立規則方法73
4.2.2算法原理74
4.2.3算法實現77
4.2.4小結81
4.3 k近鄰算法81
4.3.1算法原理82
4.3.2算法實現88
4.3.3小結91
4.4樸素貝葉斯91
4.4.1算法原理93
4.4.2算法實現100
4.4.3小結102
4.5人工神經網絡102
4.5 .1算法原理105
4.5.2算法實現108
4.5.3小結110
4.6支持向量機111
4.6.1概念和術語111
4.6.2算法原理114
4.6.3算法實現116
4.6.4小結122
4.7集成學習模型122
4.7.1集體的智慧123
4.7.2算法原理124
4.7.3算法實現126
4.7.4小結134
參考文獻134

第5章回歸方法137
5.1線性回歸139
5.1.1算法原理139
5.1.2使用RapidMiner實戰的目標與數據141
5.1.3算法實現142
5.1.4線性回歸建模要點148
5.2 Logistic回歸149
5.2.1快速入門Logistic回歸150
5.2.2模型原理151
5.2.3模型實現155
5.2.4 Logistic回歸小結158
5.3總結158
參考文獻158

第6章關聯分析160
6.1挖掘關聯規則的基本概念161
6.1.1項集162
6.1 .2生成關聯規則的一般步驟164
6.2 Apriori算法166
6.2.1使用Apriori算法找出高頻項集167
6.2.2生成關聯規則169
6.3 FP-Growth算法169
6.3.1生成FP樹170
6.3.2高頻項集的生成172
6.3.3 FP-Growth算法實現173
6.4總結176
參考文獻176

第7章聚類178
7.1聚類方法的種類179
7.2 k均值聚類182
7.2.1 k均值聚類原理183
7.2.2算法實現187
7.3 DBSCAN聚類191
7.3.1算法原理192
7.3.2算法實現195
7.3.3小結197
7.4 SOM 197
7.4.1算法原理199
7.4.2算法實現202
7.4.3小結208
參考文獻208

第8章模型評估210
8.1混淆矩陣210
8.2 ROC曲線和AUC 212
8.3提升曲線214
8.4評估預測結果217
8.5總結221
參考文獻221

第9章文本挖掘222
9.1文本挖掘算法的原理223
9.1.1 TF-IDF 223
9.1.2術語和概念225
9.2使用聚類和分類算法實現文本挖掘229
9.2.1實例1：關鍵詞聚類229
9.2.2實例2：預測博客作者的性別232
9.3總結241
參考文獻242

第10章時間序列預測243
10.1基於數據的時序分析245
10.1.1樸素預測法245
10.1.2簡單平均法246
10.1.3移動平均法246
10.1.4加權移動平均法247
10.1.5指數平滑法247
10.1.6 Holt雙參數指數平滑法. . 248
10.1. 7 Holt-Winter三參數指數平滑法249
10.2基於模型的預測方法250
10.2.1線性回歸251
10.2.2多項式回歸252
10.2.3考慮季節性的線性回歸模型252
10.2.4自回歸模型與ARIMA 254
10.2 .5基於RapidMiner的實現254
10.3總結261
參考文獻261

第11章異常檢測262
11.1異常檢測的基本概念262
11.1.1出現離群點的原因262
11.1.2異常檢測的方法264
11.2基於距離的離群點檢測方法266
11.2.1方法原理267
11.2.2方法實現268
11.3基於密度的離群點檢測方法270
11.3.1方法原理270
11.3.2方法實現271
11.4局部離群因子272
11.5總結274
參考文獻275

第12章特徵選擇276
12.1特徵選擇方法概覽276
12.2主成分分析278
12.2.1算法原理279
12.2.2算法實現280
12.3以信息論為基礎對數值型數據進行篩選284
12.4以卡方檢驗為基礎對類別型數據進行篩選286
12.5基於封裝器的特徵選擇289
12.5.1向後消除法以縮減數據集大小290
12.5.2哪些變量被消除了292
12.6總結293
參考文獻294

第13章RapidMiner入門295
13.1用戶操作界面以及介紹295
13.1.1圖形用戶操作界面的介紹295
13.1.2 RapidMiner軟件的術語296
13.2數據導入和導出工具299
13.3數據可視化工具302
13.3.1單一變量可視化304
13.3.2二維數據可視化304
13.3.3多維數據可視化304
13.4數據轉換工具305
13.5數據抽樣與處理缺失值工具309
13.6優化工具312
13.7總結317
參考文獻317
數據挖掘算法的比較319