R語言數據分析項目全程實錄

明日科技

  • 出版商: 清華大學
  • 出版日期: 2025-08-01
  • 售價: $480
  • 語言: 簡體中文
  • ISBN: 730269902X
  • ISBN-13: 9787302699026
  • 相關分類: R 語言
  • 下單後立即進貨 (約4週~6週)

  • R語言數據分析項目全程實錄-preview-1
  • R語言數據分析項目全程實錄-preview-2
  • R語言數據分析項目全程實錄-preview-3
  • R語言數據分析項目全程實錄-preview-4
  • R語言數據分析項目全程實錄-preview-5
  • R語言數據分析項目全程實錄-preview-6
  • R語言數據分析項目全程實錄-preview-7
R語言數據分析項目全程實錄-preview-1

相關主題

商品描述

"《R語言數據分析項目全程實錄》精選不同行業、不同分析方法及預測方法等 8 個熱門 R語言數據分析項目,既可作為練手項目,也可應用到實際數據分析工作中,其中的機器學習也可供參賽項目參考,總體來說各個項目實用性都非常強。 具體項目包含學生成績統計分析、汽車數據可視化分析系統、泰坦尼克號數據集分析實戰、鳶尾花數據分析與預測、基於會員數據的探索和聚類分析、快團團訂單數據統計分析與關聯分析、抖音賬號運營數據分析與預測、基於 diamonds(鉆石)數據集的分析與預測。本書從數據分析、機器學習的角度出發,按照項目開發的順序,系統、全面地講解每一個項目的開發實現過程。在體例上,每章一個項目,統一采用“開發背景→系統設計→技術準備→各功能模塊實現→項目運行→源碼下載”的形式完整呈現項目,給讀者明確的成就感,可以讓讀者快速積累實際數據分析的經驗與技巧,早日實現就業目標。 "

作者簡介

明日科技,全稱是吉林省明日科技有限公司,是一家專業從事軟件開發、教育培訓以及軟件開發教育資源整合的高科技公司,其編寫的教材非常註重選取軟件開發中的必需、常用內容,同時也很註重內容的易學、方便性以及相關知識的拓展性,深受讀者喜愛。其教材多次榮獲“全行業****品種”“全國高校出版社****書”等獎項,多個品種長期位居同類圖書銷售排行榜的前列。

目錄大綱

目錄

第1章 學生成績統計分析 1

——openxlsx + 數據計算 + 分組統計 +基本繪圖

1.1 開發背景 1

1.2 系統設計 2

1.2.1 開發環境 2

1.2.2 分析流程 2

1.2.3 功能結構 2

1.3 技術準備 2

1.3.1 技術概覽 2

1.3.2 VIM 包 3

1.3.3 rank()函數詳細解析 4

1.4 前期工作 6

1.4.1 安裝第三方R 包 6

1.4.2 新建工程 6

1.4.3 新建項目文件夾 8

1.5 數據準備 8

1.5.1 數據集介紹 8

1.5.2 讀取數據 10

1.6 數據預處理 12

1.6.1 查看數據 12

1.6.2 缺失值查看與處理 13

1.6.3 描述性統計量 14

1.7 數據統計分析 15

1.7.1 綜合排名 15

1.7.2 直方圖分析各科成績 17

1.7.3 箱形圖分析各科成績 18

1.7.4 各科最高分和最低分狀況分析 19

1.7.5 各科中上等成績統計分析 20

1.7.6 語數英成績等級狀況分析 22

1.7.7 成績波動情況分析 23

1.7.8 個人成績排名分析 24

1.8 項目運行 25

1.9 源碼下載 26

第2章 汽車數據可視化分析系統 27

——分組統計 + 基本繪圖 + ggplot2 + 相關性分析

2.1 開發背景 27

2.2 系統設計 28

2.2.1 開發環境 28

2.2.2 分析流程 28

2.2.3 功能結構 28

2.3 技術準備 29

2.3.1 技術概覽 29

2.3.2 ordered()函數的應用 29

2.3.3 詳解 pairs.panels()函數 30

2.3.4 了解 coplot()函數 32

2.4 前期工作 34

2.4.1 安裝第三方R 包 34

2.4.2 新建項目文件夾 34

2.5 數據集介紹 35

2.6 數據預處理 36

2.6.1 導入 mtcars 數據集 36

2.6.2 查看數據 36

2.6.3 缺失值查看 37

2.6.4 描述性統計分析 37

2.7 數據統計分析 39

2.7.1 矩陣圖分析相關性 39

2.7.2 相關系數分析相關性 40

2.7.3 箱形圖分析氣缸數與裏程數 41

2.7.4 箱形圖分析變速器與裏程數 42

2.7.5 散點圖分析重量與裏程數 43

2.7.6 氣缸數、裏程數和排量之間的關系 43

2.7.7 裏程數、總馬力和重量之間的關系 44

2.8 項目運行 45

2.9 源碼下載 46

第3章 泰坦尼克號數據集分析實戰 47

——數據計算 + 分組統計 + ggplot2 + pie+reshape2

3.1 開發背景 48

3.2 系統設計 48

3.2.1 開發環境 48

3.2.2 分析流程 48

3.2.3 功能結構 48

3.3 技術準備 49

3.3.1 技術概覽 49

3.3.2 批量數據類型轉換 49

3.3.3 詳解 group_by()函數 50

3.3.4 巧用管道符%>% 51

3.4 前期工作 51

3.4.1 安裝第三方R 包 51

3.4.2 新建項目文件夾 52

3.5 數據準備 53

3.5.1 數據集介紹 53

3.5.2 讀取數據 54

3.6 數據預處理 55

3.6.1 查看數據信息 55

3.6.2 缺失值分析與處理 55

3.7 基本統計分析 58

3.7.1 乘客年齡分析 58

3.7.2 乘客性別分析 60

3.7.3 不同性別乘客的年齡分布情況 61

3.7.4 不同年齡乘客親屬數量分析 61

3.7.5 船艙等級情況分析 63

3.7.6 票價分布情況 64

3.8 乘客生存情況分析 65

3.8.1 總體生存情況分析 65

3.8.2 不同等級船艙乘客生存情況分析 65

3.8.3 各個登船港口乘客生存情況分析 66

3.8.4 性別與乘客生存情況分析 68

3.8.5 年齡和性別與乘客生存情況分析 70

3.8.6 乘客親屬數量與生存情況分析 71

3.9 項目運行 73

3.10 源碼下載 74

第4章 鳶尾花數據分析與預測 75

——基本繪圖 + ggplot2 + lattice + caret +隨機森林 randomForest 包

4.1 開發背景 76

4.2 系統設計 76

4.2.1 開發環境 76

4.2.2 分析流程 76

4.2.3 功能結構 77

4.3 技術準備 77

4.3.1 技術概覽 77

4.3.2 scale()函數詳解 77

4.3.3 訓練集和測試集劃分 78

4.3.4 隨機森林 randomForest 包 79

4.4 前期工作 84

4.4.1 安裝第三方R 包 84

4.4.2 新建項目文件夾 85

4.4.3 認識鳶尾花 86

4.4.4 了解鳶尾花數據集 iris 86

4.5 查看數據概況 86

4.5.1 加載數據 86

4.5.2 查看數據 87

4.6 描述性統計分析 87

4.6.1 查看數據統計信息 87

4.6.2 分組查看數據統計信息 88

4.7 數據統計分析 89

4.7.1 繪制花萼長度的箱形圖 89

4.7.2 繪制花瓣長度的箱形圖 89

4.7.3 鳶尾花最常見的花瓣 90

4.7.4 直方圖分析鳶尾花花瓣長度 90

4.8 相關性分析 91

4.8.1 相關系數分析 91

4.8.2 各特征之間關系矩陣圖 92

4.8.3 散點圖分析鳶尾花花瓣長度和寬度的關系 93

4.8.4 散點圖分析鳶尾花花萼長度和寬度的關系 94

4.8.5 鳶尾花的線性關系分析 95

4.9 隨機森林預測鳶尾花種類 95

4.9.1 數據標準化處理 95

4.9.2 劃分訓練集和測試集 96

4.9.3 構建隨機森林模型 97

4.9.4 預測鳶尾花種類 98

4.9.5 評估模型性能 98

4.10 項目運行 98

4.11 源碼下載 99

第5章 基於會員數據的探索和聚類分析 100

——日期時間 + 分組統計 + 基本繪圖 + RFM 模型 + NbClust+wskm+cluster

5.1 開發背景 101

5.2 系統設計 101

5.2.1 開發環境 101

5.2.2 分析流程 101

5.2.3 功能結構 102

5.3 技術準備 102

5.3.1 技術概覽 102

5.3.2 3 種方法統計各列缺失值 102

5.3.3 RFM 模型 103

5.3.4 k 均值聚類分析 104

5.3.5 聚類方案NbClust 包 106

5.3.6 聚類可視化 107

5.4 前期工作 109

5.4.1 安裝第三方R 包 109

5.4.2 新建項目文件夾 109

5.5 數據準備 110

5.6 數據預處理 111

5.6.1 數據預覽 111

5.6.2 日期時間數據處理 112

5.6.3 缺失性分析 113

5.6.4 計算RFM 值 114

5.7 數據統計分析 115

5.7.1 消費周期分析 115

5.7.2 消費頻次分析 116

5.7.3 消費金額分析 117

5.8 K-means 聚類分析 118

5.8.1 數據標準化 118

5.8.2 聚類方案 119

5.8.3 K 均值聚類分析 120

5.9 項目運行 121

5.10 源碼下載 122

第6章 快團團訂單數據統計分析與關聯分析 123

——分組統計 + 數據合並 + 基本繪圖 + ggplot2 + Apriori 關聯分析 + arules

6.1 開發背景 124

6.2 系統設計 124

6.2.1 開發環境 124

6.2.2 分析流程 124

6.2.3 功能結構 124

6.3 技術準備 125

6.3.1 技術概覽 125

6.3.2 繪圖排序 reorder()函數 125

6.3.3 詳解 ggplot2 包的主題函數 theme() 126

6.3.4 Apriori 關聯分析 127

6.3.5 詳解 arules 包 128

6.4 前期工作 130

6.4.1 新建項目文件夾 130

6.4.2 數據準備 131

6.5 數據預處理 132

6.5.1 查看數據 132

6.5.2 缺失性分析 133

6.5.3 描述性統計分析 133

6.5.4 異常數據處理 134

6.6 數據統計分析 135

6.6.1 柱形圖分析商品數量 135

6.6.2 訂單商品數量分布情況 135

6.6.3 直方圖分析訂單商品金額 137

6.6.4 區域訂單數量分析 138

6.6.5 城市訂單數量分析 139

6.7 訂單商品關聯分析 141

6.7.1 數據處理 141

6.7.2 可視化頻繁項 143

6.7.3 關聯分析 143

6.8 項目運行 145

6.9 源碼下載 146

第7章 抖音賬號運營數據分析與預測 147

——purrr + 日期處理 + tibble + 基本繪圖 + ggplot2 + 回歸分析

7.1 開發背景 148

7.2 系統設計 148

7.2.1 開發環境 148

7.2.2 分析流程 148

7.2.3 功能結構 148

7.3 技術準備 149

7.3.1 技術概覽 149

7.3.2 map()函數與 reduce()函數的完美結合 149

7.3.3 column_to_rownames()函數的應用 150

7.4 前期工作 152

7.4.1 安裝第三方R 包 152

7.4.2 新建項目文件夾 153

7.5 數據準備 154

7.5.1 數據下載 154

7.5.2 數據集介紹 154

7.6 數據預處理 155

7.6.1 數據合並 155

7.6.2 查看數據 157

7.6.3 數據類型轉換 158

7.6.4 描述性統計分析 158

7.7 數據統計分析 159

7.7.1 播放量趨勢分析 159

7.7.2 粉絲凈增長趨勢分析 160

7.7.3 主頁訪問數據分析 161

7.7.4 作品數據分析 162

7.7.5 星期播放量分析 163

7.8 相關性分析 165

7.8.1 矩陣圖分析相關性 165

7.8.2 相關系數分析相關性 165

7.8.3 散點圖分析播放量與凈增粉絲 167

7.8.4 氣泡圖分析播放量、凈增粉絲與主頁訪問 168

7.9 凈增粉絲預測 169

7.9.1 一元線性回歸預測凈增粉絲 169

7.9.2 多元線性回歸預測凈增粉絲 171

7.10 項目運行 172

7.11 源碼下載 173

第8章 基於 diamonds(鉆石)數據集的分析與預測 174

——ggplot2 + 分組統計 + 相關性分析 + kruskal.test + 多元線性回歸

8.1 開發背景 175

8.2 系統設計 175

8.2.1 開發環境 175

8.2.2 分析流程 175

8.2.3 功能結構 176

8.3 技術準備 176

8.3.1 技術概覽 176

8.3.2 IQR 方法 176

8.3.3 分類變量異常值檢測常用方法 177

8.3.4 異常值處理方法 178

8.3.5 詳解 kruskal.test()函數 179

8.4 前期工作 180

8.4.1 安裝第三方R 包 180

8.4.2 新建項目文件夾 180

8.5 數據集介紹 181

8.5.1 數據集概述 181

8.5.2 變量說明 181

8.5.3 數據集特點 182

8.6 數據預處理 182

8.6.1 導入 diamonds 數據集 182

8.6.2 查看數據 183

8.6.3 描述性統計分析 184

8.7 異常值分析與處理 184

8.7.1 異常值分析 184

8.7.2 異常值檢測 185

8.7.3 異常值處理 187

8.8 數據統計分析 188

8.8.1 鉆石深度和臺面分析 188

8.8.2 鉆石切工、顏色和凈度分析 188

8.8.3 鉆石價格分析 190

8.9 相關性分析 191

8.9.1 散點圖分析克拉對價格的影響 191

8.9.2 切工對價格的影響 192

8.9.3 顏色對價格的影響 194

8.9.4 凈度對價格的影響 195

8.9.5 鉆石長寬深與價格之間的關系 196

8.9.6 相關系數分析相關性 197

8.10 多元線性回歸分析 197

8.10.1 Kruskal-Wallis 檢驗 197

8.10.2 構建多元線性回歸模型 198

8.10.3 模型改進 200

8.10.4 鉆石價格預測 201

8.11 項目運行 201

8.12 源碼下載 202