機器學習與數據科學基於R的統計學習方法 (Machine Learning and Data Science: An Introduction to Statistical Learning Methods with R) 机器学习与数据科学:基于R的统计学习方法

古鐵雷斯 (Daniel D.Gutierrez)

買這商品的人也買了...

商品描述

當前,機器學習和數據科學都是很重要和熱門的相關學科,需要深入地研究學習才能精通。
本書試圖指導讀者掌握如何完成涉及機器學習的數據科學項目。本書將為數據科學家提供一些在統計學習領域會用到的工具和技巧,涉及數據連接、數據處理、探索性數據分析、監督機器學習、非監督機器學習和模型評估。本書選用的是R統計環境,書中所有代碼示例都是用R語言編寫的,涉及眾多流行的R包和數據集。
本書適合數據科學家、數據分析師、軟件開發者以及需要瞭解數據科學和機器學習方法的科研人員閱讀參考。

目錄大綱

第1章機器學習綜述 1
1.1 機器學習的分類2
1.2 機器學習的實際案例3
1.2.1 預測回頭客挑戰賽4
1.2.2 Netflix公司5
1.2.3 算法交易挑戰賽6
1.2.4 Heritage健康獎7
1.3 機器學習的過程10
1.4 機器學習背後的數學15
1.5 成為一名數據科學家16
1.6 統計計算的R工程18
1.7 RStudio 19
1.8 使用R包20
1.9 數據集22
1.10 在生產中使用R 23
1.11 小結24


第2章連接數據25
2.1 管理你的工作目錄27
2.2 數據文件的種類28
2.3 數據的來源28
2.4 從網絡中下載數據集29
2.5 讀取CSV文件31
2.6 讀取Excel文件33
2.7 使用文件連接34
2.8 讀取JSON文件35
2.9 從網站中抓取數據36
2.10 SQL數據庫38
2.11 R中的SQL等價表述42
2.12 讀取Twitter數據46
2.13 從谷歌分析中讀取數據48
2.14 寫數據51
2.15 小結53


第3章數據處理54
3.1 特徵工程57
3.2 數據管道59
3.3 數據採樣60
3.4 修正變量名60
3.5 創建新變量62
3.6 數值離散化63
3.7 日期處理65
3.8 將類變量二值化67
3.9 合併數據集68
3.10 排列數據集70
3.11 重塑數據集71
3.12 使用dplyr進行數據操作72
3.13 處理缺失數據75
3.14 特徵縮放77
3.15 降維78
3.16 小結81


第4章探索性數據分析83
4.1 數據統計84
4.2 探索性可視化87
4.3 直方圖88
4.4 箱形圖89
4.5 條形圖92
4.6 密度圖93
4.7 散點圖95
4.8 QQ圖101
4.9 熱圖102
4.10 缺失值的圖表103
4.11 解釋性圖表104
4.12 小結106


第5章回歸107
5.1 一元線性回歸108
5.2 多元線性回歸120
5.3 多項式回歸127
5.4 小結134


第6章分類136
6.1 一個簡單的例子137
6.2 邏輯回歸139
6.3 分類樹143
6.4 樸素貝葉斯147
6.5 K-最近鄰151
6.6 支持向量機155
6.7 神經網絡159
6.8 集成165
6.9 隨機森林168
6.10 梯度提昇機171
6.11 小結174


第7章評估模型性能176
7.1 過擬合177
7.2 偏差和方差183
7.3 干擾因子187
7.4 數據洩漏188
7.5 測定回歸性能190
7.6 測定分類性能194
7.7 交叉驗證197
7.8 其他機器學習診斷法204
7.8.1 獲取更多的訓練觀測數據205
7.8.2 特徵降維205
7.8.3 添加新特徵205
7.8.4 添加多項式特徵206
7.8.5 對正則化參數進行微調206
7.9 小結206


第8章非監督學習208
8.1 聚類209
8.2 模擬聚類211
8.3 分級聚類212
8.4 K-均值聚類219
8.5 主成分分析224
8.6 小結233
術語表234