機器學習與R語言
- 出版商: 機械工業
- 出版日期: 2026-01-01
- 售價: $894
- 語言: 簡體中文
- ISBN: 7111792750
- ISBN-13: 9787111792758
-
相關分類:
R 語言、Machine Learning
- 此書翻譯自: Machine Learning with R: Learn techniques for building and improving machine learning models, from data preparation to model tuning, evaluation, and working with big data, 4/e (Paperback)
下單後立即進貨 (約4週~6週)
相關主題
商品描述
R本身是一款十分 的數據分析和數據可視化軟件。本書由機器學習領域的專家撰寫,通過將實踐案例與核心的理論知識相結合,全面介紹多種重要的機器學習算法,從對案例數據的探索、整理到模型的建立和模型的評估,每一步都給出詳盡的步驟和R代碼,為讀者深入理解並靈活應用R語言進行數據挖掘和機器學習提供翔實參考。無論你是經驗豐富的R語言用戶還是初學者,作者都會教你如何進行數據預處理、發現關鍵見解、做出新的預測以及將結果可視化。這本書新增了機器學習成功之道、 數據準備、構建 好的學習器以及利用大數據等章節,反映了機器學習在過去幾年中取得的進步,幫助你掌握 多的數據科學技能,解決 具挑戰性的問題。這本書已 新至 R語言 4.2.2版,其中包含 新、 好的庫,關於機器學習中的道德和偏見問題的建議以及深度學習方面的介紹。無論你是想邁出使用R進行機器學習的 步,還是想確保技能和知識與時俱進,這本書都是不可錯過的讀物。
作者簡介
布雷特·蘭茨(Brett Lantz) 在應用創新的數據方法理解人類行為方面有近20年經驗。作為一名科班出身的社會學家,他 初在研究一個包含青少年社交網絡檔案的大型數據庫時,便對機器學習產生了濃厚興趣。布雷特是DataCamp平臺的講師,曾在 多地開展機器學習工作坊教學。他熱衷於探索數據科學在體育、電子遊戲、自動駕駛汽車、外語學習等多個領域的應用,並致力於在個人網站dataspelunking.com上就這些主題撰寫文章分享見解。
目錄大綱
譯者序
前言
關於作者
關於審校者
第1章 機器學習概述1
1.1 機器學習起源1
1.2 機器學習的應用與濫用3
1.2.1 機器學習能做什麼4
1.2.2 機器學習的局限性5
1.2.3 機器學習倫理6
1.3 機器如何學習8
1.3.1 數據存儲9
1.3.2 抽象9
1.3.3 泛化11
1.3.4 評估12
1.4 機器學習實踐13
1.4.1 輸入數據類型13
1.4.2 機器學習算法分類15
1.4.3 選擇合適的算法17
1.5 基於R語言的機器學習18
1.5.1 安裝R軟件包18
1.5.2 加載和卸載R軟件包19
1.5.3 安裝RStudio19
1.5.4 為何選擇R語言20
1.6 小結21
第2章 管理與解讀數據22
2.1 R語言中的數據結構22
2.1.1 向量23
2.1.2 因子24
2.1.3 列表26
2.1.4 數據框28
2.1.5 矩陣和數組30
2.2 管理數據32
2.2.1 保存、加載、刪除數據
結構32
2.2.2 從CSV文件導入和保存
數據集33
2.2.3 用RStudio導入數據集34
2.3 探索和解讀數據36
2.3.1 數據結構分析36
2.3.2 數值型特征分析37
2.3.3 類別型特征分析45
2.3.4 特征間的關系47
2.4 小結51
第3章 懶惰學習—最近鄰分類52
3.1 最近鄰分類52
3.1.1 k-NN算法53
3.1.2 何為“懶惰”算法58
3.2 示例:用k-NN算法診斷乳腺癌59
3.2.1 第1步:收集數據59
3.2.2 第2步:探索並準備
數據59
3.2.3 第3步:訓練模型63
3.2.4 第4步:評估模型性能64
3.2.5 第5步:優化模型性能65
3.3 小結67
第4章 概率學習—樸素貝葉斯
分類69
4.1 樸素貝葉斯算法69
4.1.1 貝葉斯算法的基本概念70
4.1.2 樸素貝葉斯算法簡介74
4.2 示例:用樸素貝葉斯算法過濾
手機垃圾短信78
4.2.1 第1步:收集數據78
4.2.2 第2步:探索並準備
數據79
4.2.3 第3步:訓練模型91
4.2.4 第4步:評估模型
性能92
4.2.5 第5步:優化模型
性能93
4.3 小結94
第5章 分而治之—用決策樹和
規則分類95
5.1 決策樹95
5.1.1 分而治之96
5.1.2 C5.0決策樹算法99
5.2 示例:使用C5.0決策樹識別
高風險銀行貸款101
5.2.1 第1步:收集數據102
5.2.2 第2步:探索並準備
數據102
5.2.3 第3步:訓練模型105
5.2.4 第4步:評估模型性能108
5.2.5 第5步:優化模型性能109
5.3 分類規則113
5.3.1 離而治之114
5.3.2 1R算法115
5.3.3 RIPPER算法116
5.3.4 決策樹中的規則117
5.3.5 何為決策樹和規則的
貪婪118
5.4 示例:用規則學習器識別
毒蘑菇119
5.4.1 第1步:收集數據120
5.4.2 第2步:探索並準備
數據120
5.4.3 第3步:訓練模型121
5.4.4 第4步:評估模型性能122
5.4.5 第5步:優化模型性能123
5.5 小結125
第6章 預測數值型數據
—回歸法126
6.1 回歸126
6.1.1 簡單線性回歸128
6.1.2 普通最小二乘估計129
6.1.3 相關性131
6.1.4 多重線性回歸132
6.1.5 廣義線性模型與邏輯
回歸135
6.2 示例:用線性回歸預測汽車保險
理賠成本138
6.2.1 第1步:收集數據138
6.2.2 第2步:探索並準備
數據139
6.2.3 第3步:訓練模型143
6.2.4 第4步:評估模型性能146
6.2.5 第5步:優化模型性能147
6.2.6 更進一步:用邏輯回歸
預測保險客戶流失152
6.3 回歸樹和模型樹156
6.4 示例:用回歸樹和模型樹評估
葡萄酒的品質158
6.4.1 第1步:收集數據159
6.4.2 第2步:探索並準備
數據159
6.4.3 第3步:訓練模型161
6.4.4 第4步:評估模型性能164
6.4.5 第5步:優化模型性能165
6.5 小結168
第7章 黑盒法—神經網絡和支持
向量機169
7.1 神經網絡169
7.1.1 從生物神經元到人工
神經元170
7.1.2 激活函數171
7.1.3 網絡拓撲結構173
7.1.4 用反向傳播訓練神經
網絡176
7.2 示例:用ANN對混凝土強度進行
建模177
7.2.1 第1步:收集數據178
7.2.2 第2步:探索並準備
數據178
7.2.3 第3步:訓練模型179
7.2.4 第4步:評估模型性能181
7.2.5 第5步:優化模型性能182
7.3 支持向量機187
7.3.1 用超平面分類187
7.3.2 使用核函數處理非線性
空間190
7.4 示例:使用SVM進行OCR
識別191
7.4.1 第1步:收集數據192
7.4.2 第2步:探索並準備
數據192
7.4.3 第3步:訓練模型193
7.4.4 第4步:評估模型性能195
7.4.5 第5步:優化模型性能196
7.5 小結199
第8章 發掘模式—用關聯規則
進行購物籃分析200
8.1 關聯規則200
8.1.1 Apriori算法201
8.1.2 衡量規則的興趣度
—支持度和置信度203
8.1.3 用先驗原則建立規則203
8.2 示例:用關聯規則識別熱銷
商品204
8.2.1 第1步:收集數據205
8.2.2 第2步:探索並準備
數據205
8.2.3 第3步:訓練模型211
8.2.4 第4步:評估模型性能214
8.2.5 第5步:優化模型性能217
8.3 小結222
第9章 尋找數據分組—k均值
聚類223
9.1 聚類223
9.1.1 基於聚類的機器學習224
9.1.2 聚類算法中的簇225
9.1.3 k均值聚類算法228
9.2 用k均值聚類找出青少年用戶
細分市場232
9.2.1 第1步:收集數據232
9.2.2 第2步:探索並準備
數據233
9.2.3 第3步:訓練模型237
9.2.4 第4步:評估模型性能239
9.2.5 第5步:優化模型性能242
9.3 小結243
第10章 評估模型性能244
10.1 衡量分類性能244
10.1.1 分類器預測245
10.1.2 進一步了解混淆矩陣248
10.1.3 用混淆矩陣衡量性能249
10.1.4 除準確率之外的其他
性能衡量指標251
10.1.5 用ROC曲線可視化
性能權衡260
10.2 估算未來性能267
10.2.1 留出法267
10.2.2 交叉驗證270
10.2.3 自助抽樣273
10.3 小結274
第11章 機器學習成功之道275
11.1 機器學習從業指南275
11.2 何為成功的機器學習模型277
11.2.1 規避淺顯的預測279
11.2.2 進行公平的評估280
11.2.3 考慮現實影響283
11.2.4 建立對模型的信任286
11.3 為數據科學註入“科學”元素288
11.3.1 使用R筆記本和
R標記291
11.3.2 高級數據探索294
11.4 小結307
第12章 高級數據準備308
12.1 特征工程簡介308
12.1.1 人機角色309
12.1.2 大數據和深度學習的
影響311
12.2 特征工程實踐315
12.2.1 建議1:集思廣益
構建新特征316
12.2.2 建議2:找出文本
中蘊含的信息317
12.2.3 建議3:轉換數值
範圍318
12.2.4 建議4:觀測相鄰
數據319
12.2.5 建議5:利用相關行319
12.2.6 建議6:分解時間
序列320
12.2.7 建議7:引入外部
數據323
12.3 探索tidyverse325
12.3.1 用tibble構建清晰的
表結構325
12.3.2 用readr和readxl快速
讀取數據表326
12.3.3 用dplyr準備並傳輸
數據327
12.3.4 用stringr轉換文本330
12.3.5 用lubridate處理日期
數據335
12.4 小結339
第13章 難以處理的數據—過多、
太少,或過於覆雜340
13.1 高維數據340
13.1.1 特征選擇342
13.1.2 特征提取349
13.2 稀疏數據357
13.2.1 識別稀疏數據358
13.2.2 示例:重映射稀疏
分類數據359
13.2.3 示例:劃分數值型
稀疏數據區間362
13.3 缺失數據365
13.3.1 缺失數據的類型366
13.3.2 缺失值填補367
13.4 數據不平衡問題369
13.4.1 平衡數據的簡單
策略370
13.4.2 用SMOTE生成
合成平衡數據集372
13.4.3 平衡的取舍375
13.5 小結376
第14章 構建更好的學習器377
14.1 優化現有模型以提升性能377
14.1.1 確定超參數調優
範圍378
14.1.2 示例:用caret
進行自動調優380
14.2 用集成法提高模型性能387
14.2.1 集成學習388
14.2.2 常用的集成算法390
14.3 元學習模型堆疊408
14.3.1 模型堆疊與融合409
14.3.2 用R語言實現融合與
堆疊410
14.4 小結412
第15章 利用大數據414
15.1 深度學習應用414
15.1.1 深度學習簡介415
15.1.2 卷積神經網絡418
15.2 無監督學習和大數據426
15.2.1 用嵌入表示高維
概念426
15.2.2 高維數據可視化435
15.3 用R語言處理大型數據集441
15.3.1 SQL數據庫查詢441
15.3.2 用並行處理提升
性能446
15.3.3 利用專用硬件和
算法451
15.4 小結456
