R語言實戰, 3/e R in Action, Third Edition: Data Analysis and Graphics with R and Tidyverse

Robert I. Kabacoff 王韜

買這商品的人也買了...

商品描述

本書通過循序漸進的內容設計、深入淺出的技巧講解,
幫助讀者輕鬆上手R語言,掌握統計分析及數據可視化的思路、方法與技巧。
本書還會帶領讀者挑戰真實世界中的數據難題,包括數據預測、數據挖掘以及動態數據報告的撰寫等。
值得一提的是,本書對ggplot2 繪圖功能進行了頗具深度的解讀。
另外,針對聚類、分類和時間序列分析等機器學習主題,本書增加了更多翔實的案例。
·數據清洗、數據管理及數據分析
·使用ggplot2繪圖實現數據可視化
·調試程序及創建包
·R語言及tidyverse系列包的完整的學習資源

目錄大綱

第一部分入門
第1章R介紹3
1.1 為何要使用R 4
1.2 R的獲取和安裝6
1.3 R的使用6
1.3.1 新手上路7
1.3.2 使用RStudio 9
1.3.3 獲取幫助11
1.3.4 工作區12
1.3.5 項目13
1.4 包14
1.4.1 什麼是包14
1.4.2 安裝包14
1.4.3 包的載入15
1.4.4 包的使用方法15
1.5 將輸出用作輸入:結果的複用16
1.6 處理大型數據集16
1.7 示例實踐17
1.8 小結18

第2章創建數據集19
2.1 理解數據集19
2.2 數據結構20
2.2.1 向量21
2.2.2 矩陣22
2.2.3 數組23
2.2.4 數據框24
2.2.5 因子26
2.2.6 列表28
2.2.7 tibble 數據框30
2.3 數據的輸入31
2.3.1 使用鍵盤輸入數據32
2.3.2 從帶分隔符的文本文件導入數據33
2.3.3 導入Excel 數據37
2.3.4 導入JSON 數據37
2.3.5 從網頁抓取數據37
2.3.6 導入SPSS數據38
2.3.7 導入SAS數據38
2.3.8 導入Stata數據39
2.3.9 訪問數據庫管理系統39
2.3.10 通過Stat/Transfer導入數據40
2.4 數據集的標註41
2.4.1 變量標籤41
2.4.2 值標籤41
2.5 處理數據對象的實用函數41
2.6 小結42

第3章基本數據管理43
3.1 一個示例43
3.2 創建新變量45
3.3 變量的重編碼46
3.4 變量的重命名47
3.5 缺失值48
3.5.1 重編碼某些值為缺失值49
3.5.2 在分析中排除缺失值49
3.6 日期值50
3.6.1 將日期變量轉換為字符型變量52
3.6.2 更進一步52
3.7 類型轉換52
3.8 數據排序53
3.9 數據集的合併54
3.9.1 在數據框中添加列54
3.9.2 在數據框中添加行54
3.10 切分數據集54
3.10.1 選取變量55
3.10.2 剔除變量55
3.10.3 選入觀測值56
3.10.4 subset()函數57
3.10.5 隨機抽樣57
3.11 使用dplyr包操作數據框58
3.11.1 基本的dplyr 函數58
3.11.2 使用管道操作符對語句進行串接61
3.12 使用SOL語句操作數據框61
3.13 小結62

第4章圖形初階63
4.1 使用gplot2包創建圖形64
4.1.1 函數ggplot() 64
4.1.2 geom_函數65
4.1.3 分組68
4.1.4 標尺69
4.1.5 刻面72
4.1.6 標籤73
4.1.7 主題74
4.2 ggplot2包的詳細信息75
4.2.1 放置數據和映射選項76
4.2.2 將圖形作為對象使用77
4.2.3 保存圖形78
4.2.4 常見錯誤79
4.3 小結80

第5章*數據管理81
5.1 一個數據處理難題81
5.2 數值處理函數和字符處理函數82
5.2.1 數學函數82
5.2.2 統計函數83
5.2.3 概率函數86
5.2.4 字符處理函數89
5.2.5 其他實用函數90
5.2.6 將函數應用於矩陣和數據框91
5.2.7 數據處理難題的一套解決方案92
5.3 控制流96
5.3.1 重複和循環97
5.3.2 條件執行98
5.4 用戶自定義函數99
5.5 數據重塑101
5.5.1 轉置101
5.5.2 將寬表數據集格式轉換為長表數據集格式101
5.6 數據匯總103
5.7 小結105

*部分基本方法
第6章基本圖形108
6.1 條形圖108
6.1.1 簡單的條形圖109
6.1.2 堆積、分組和填充條形圖110
6.1.3 均值條形圖111
6.1.4 條形圖的微調114
6.1.1 簡單的條形圖109
6.1.2 堆積、分組和填充條形圖110
6.1.3 均值條形圖111
6.1.4 條形圖的微調114
6.2 餅圖119
6.3 樹形圖121
6.4 直方圖124
6.5 核密度圖126
6.6 箱線圖129
6.6.1 使用並列箱線圖進行跨組比較130
6.6.2 小提琴圖133
6.7 點圖134
6.8 小結136

第7章基本統計分析137
7.1 描述性統計分析138
7.1.1 方法雲集138
7.1.2 更多方法139
7.1.3 分組計算描述性統計量141
7.1.4 使用dplyr進行交互式匯總數據143
7.1.5 結果的可視化145
7.2 頻數表和列聯表145
7.2.1 生成頻數表145
7.2.2 獨立性檢驗151
7.2.3 相關性度量153
7.2.4 結果的可視化153
7.3 相關分析153
7.3.1 相關的類型154
7.3.2 相關性的顯著性檢驗156
7.3.3 相關關係的可視化158
7.4 t檢驗158
7.4.1 獨立樣本的t檢驗158
7.4.2 非獨立樣本的t檢驗159
7.4.3 多於兩組的情況160
7.5 組間差異的非參數檢驗160
7.5.1 兩組的比較160
7.5.2 多於兩組的比較161
7.6 組間差異的可視化163
7.7 小結163

第三部分中級方法
第8章回歸166
8.1 回歸的多面性167
8.1.1 OLS 回歸的適用場景167
8.1.2 基礎回顧168
8.2 OLS 回歸168
8.2.1 用函數lm()擬合回歸模型169
8.2.2 簡單線性回歸170
8.2.3 多項式回歸172
8.2.4 多元線性回歸175
8.2.5 帶交互項的多元線性回歸177
8.3 回歸模型的診斷179
8.3.1 標準方法179
8.3.2 改進的方法181
8.3.3 多重共線性185
8.3.1 標準方法179
8.3.2 改進的方法181
8.3.3 多重共線性185
8.4 異常觀測值186
8.4.1 離群點186
8.4.2 高槓桿值點187
8.4.3 強影響點188
8.5 改進措施190
8.5.1 刪除觀測點191
8.5.2 變量變換191
8.5.3 增刪變量193
8.5.4 嘗試其他方法193
8.6 選擇“*”的回歸模型193
8.6.1 模型比較193
8.6.2 變量選擇194
8.7 深層次分析197
8.7.1 交叉驗證197
8.7.2 相對重要性199
8.8小結201

第9章方差分析202
9.1 術語速成202
9.2 ANOVA模型擬合204
9.2.1 aov()函數205
9.2.2 表達式中各項的順序205
9.3 單因素方差分析206
9.3.1 多重比較208
9.3.2 評估檢驗的假設條件212
9.4 單因素協方差分析213
9.4.1 評估檢驗的假設條件215
9.4.2 結果的可視化215
9.5 雙因素方差分析216
9.6 重複測量方差分析219
9.7 多元方差分析222
9.7.1 評估檢驗的假設條件223
9.7.2 穩健多元方差分析224
9.8 用回歸來做方差分析225
9.9 小結227

第10章功效分析228
10.1 假設檢驗速覽228
10.2 用pwr包做功效分析230
10.2.1 t 檢驗231
10.2.2 方差分析233
10.2.3 相關性233
10.2.4 線性模型234
10.2.5 比例檢驗235
10.2.6 卡方檢驗235
10.2.7 在新情況中選擇合適的效應值237
10.3 繪製功效分析圖239
10.4 其他功效分析包240
10.5 小結241

第11章中級繪圖242
11.1 散點圖243
11.1.1 散點圖矩陣245
11.1.2 高密度散點圖248
11.1.3 三維散點圖251
11.1.4 旋轉三維散點圖254
11.1.5 氣泡圖255
11.2 折線圖257
11.3 相關圖260
11.4 馬賽克圖264
11.5 小結267

第12章重抽樣與自助法268
12.1 置換檢驗268
12.2 用coin 包做置換檢驗270
12.2.1 獨立雙樣本和K 樣本檢驗271
12.2.2 列聯表中的獨立性272
12.2.3 數值變量間的獨立性273
12.2.4 雙樣本和K 樣本檢驗273
12.2.5 深入探究274
12.3 用lmPerm 包做置換檢驗274
12.3.1 簡單回歸和多項式回歸274
12.3.2 多元回歸276
12.3.3 單因素方差分析和協方差分析276
12.3.4 雙因素方差分析277
12.4 置換檢驗點評278
12.5 自助法278
12.6 boot 包中的自助法279
12.6.1 對單個統計量使用自助法. 280
12.6.2 多個統計量的自助法282
12.7 小結284

第四部分*方法
第13章廣義線性模型287
13.1 廣義線性模型和glm()函數288
13.1.1 glm()函數288
13.1.2 連用的函數289
13.1.3 模型擬合和回歸診斷290
13.2 Logistic 回歸291
13.2.1 解釋模型參數293
13.2.2 評價自變量對結果概率的影響294
13.2.3 過度離勢295
13.2.4 擴展296
13.3 泊松回歸296
13.3.1 解釋模型參數298
13.3.2 過度離勢299
13.3.3 擴展300
13.4 小結302

第14章主成分分析和因子分析303
14.1 R 中的主成分分析和因子分析304
14.2 主成分分析305
14.2.1 判斷需提取的主成分數306
14.2.2 提取主成分307
14.2.3 主成分旋轉310
14.2.4 獲取主成分得分311
14.3 探索性因子分析313
14.3.1 判斷需提取的公共因子數314
14.3.2 提取公共因子315
14.3.3 因子旋轉315
14.3.4 因子得分319
14.3.5 其他與探索性因子分析
相關的包319
14.4 其他潛變量模型319
14.5 小結320

第15章時間序列322
15.1 在R 中生成時序對象324
15.2 時序的平滑化和季節項分解326
15.2.1 通過簡單移動平均進行平滑處理327
15.2.2 季節項分解328
15.3 指數預測模型334
15.3.1 單指數平滑334
15.3.2 Holt 指數平滑和Holt Winters 指數平滑337
15.3.3 ets()函數和自動預測339
15.4 ARIMA 預測模型341
15.4.1 概念介紹341
15.4.2 ARMA 和ARIMA 模型342
15.4.3 ARIMA 模型的自動預測347
15.5 小結348

第16章聚類分析349
16.1 聚類分析的一般步驟350
16.2 計算距離351
16.3 層次聚類分析353
16.4 劃分聚類分析357
16.4.1 K 均值聚類357
16.4.2 圍繞中心點的劃分364
16.5 避免不存在的聚類簇365
16.6 小結369

第17章分類370
17.1 數據準備371
17.2 Logistic 回歸372
17.3 決策樹374
17.3.1 *決策樹374
17.3.2 條件推斷樹377
17.4 隨機森林378
17.5 支持向量機381
17.6 選擇預測效果*的模型384
17.7 理解黑箱預測387
17.7.1 繪製細分圖388
17.7.2 繪製Shapley 值圖390
17.8 深入探究391
17.9 小結391

第18章處理缺失數據的*方法393
18.1 處理缺失值的步驟394
18.2 識別缺失值395
18.3 探索缺失值模式396
18.3.1 缺失值的可視化396
18.3.2 用相關性探索缺失值400
18.4 理解缺失數據的來由和影響401
18.5 合理推斷不完整數據. 402
18.6 刪除缺失數據403
18.6.1 完整觀測值分析(行刪除) 403
18.6.2 可獲取的觀測值分析(成對刪除) 404
18.7 單一插補405
18.7.1 簡單插補405
18.7.2 k近鄰插補405
18.7.3 missForest 插補407
18.8 多重插補408
18.9 處理缺失數據的其他方法410
18.10 小結411

第五部分技能擴展
第19章*繪圖414
19.1 修改標尺415
19.1.1 自定義坐標軸415
19.1.2 自定義顏色420
19.2 修改主題424
19.2.1 預置主題424
19.2.2 自定義字體426
19.2.3 自定義圖例428
19.2.4 自定義繪圖區430
19.3 添加標註432
19.3.1 給數據點添加標籤432
19.3.2 給條形添加標籤434
19.4 圖形的組合437
19.5 繪製交互式圖形439
19.6 小結442

第20章*編程443
20.1 R 語言回顧443
20.1.1 數據類型444
20.1.2 控制結構450
20.1.3 創建函數452
20.2 使用環境454
20.3 非標準計算456
20.4 面向對象編程458
20.4.1 泛型函數458
20.4.2 S3 模型的局限性460
20.5 編寫*的代碼460
20.5.1 *的數據輸入460
20.5.2 向量化461
20.5.3 *調整對象的大小462
20.5.4 並行化462
20.6 調試464
20.6.1 常見的錯誤來源464
20.6.2 調試工具465
20.6.3 支持調試的會話選項468
20.6.4 使用RStudio 的可視化調試器471
20.7 小結473

第21章創建動態報告474
21.1 用模板生成報告476
21.2 用R和R Markdown創建報告478
21.3 用R和LaTeX創建報告483
21.4 避免常見的R Markdown 錯誤488
21.5 深入探討489
21.6 小結489

第22 章創建包490
22.1 edatools包491
22.2 創建包492
22.2.1 安裝開發工具493
22.2.2 創建包項目493
22.2.3 添加函數494
22.2.4 添加函數文檔499
22.2.5 添加一般幫助文件(可選) 501
22.2.6 添加樣本數據到包(可選) 502
22.2.7 添加簡介文檔(可選) 503
22.2.8 編輯DESCRIPTION 文件503
22.2.9 生成並安裝包505
22.3 分發包508
22.3.1 分發包的源文件508
22.3.2 提交到CRAN 509
22.3.3 託管到GitHub 509
22.3.4 創建包網站511
22.4 深入探討512
22.5 小結513
附錄A 圖形用戶界面514
附錄B 自定義啟動環境516
附錄C 從R 中導出數據519
附錄DR中的矩陣運算521
附錄E 本書中用到的包523
附錄F 處理大型數據集527
附錄G 更新R 531
後記:探索R的世界533