R語言大數據分析與挖掘

謝笑盈,金康偉

  • 出版商: 電子工業
  • 出版日期: 2023-03-01
  • 定價: $330
  • 售價: 8.5$281
  • 語言: 簡體中文
  • 頁數: 280
  • ISBN: 7121452383
  • ISBN-13: 9787121452383
  • 相關分類: R 語言大數據 Big-dataData Science
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書首先簡要介紹了大數據分析與挖掘的相關概念,以及R語言的基礎知識,以此來幫助讀者瞭解、使用R語言;其次詳細介紹了探索性數據分析、數據採集,以此來幫助讀者瞭解數據的基本分析方法和數據的獲取方法;然後著重介紹了目前主流的數據挖掘算法——時間序列算法、線性回歸算法、分類算法、關聯算法、聚類算法,從算法的原理到如何使用R語言進行算法實現都進行了詳細的介紹並提供了實操代碼,以此幫助讀者學習數據挖掘及使用R語言完成數據挖掘任務;最後通過6個旅游行業的實際案例來幫助讀者將學習到的知識運用到真實的業務場景中,並融會貫通整個知識體系。 本書無須讀者具備R語言和大數據分析與挖掘的基礎知識。無論是R語言初學者,還是熟練的R語言用戶,都能從本書中找到有用的內容。本書既可以作為一本學習R語言的教材,也可以作為大數據分析與挖掘的工具書。

目錄大綱

第1章 大數據分析與挖掘概論 1
1.1 大數據分析與挖掘 1
1.1.1 大數據定義 1
1.1.2 大數據分析與挖掘的概念 2
1.2 大數據分析與挖掘流程 3
1.2.1 數據獲取 3
1.2.2 數據預處理 3
1.2.3 數據分析 4
1.2.4 數據解釋 5
1.3 大數據分析與挖掘應用 5
1.3.1 優化任務 5
1.3.2 預測任務 5
1.3.3 分類任務 5
1.3.4 識別任務 6
第2章 R語言編程基礎 7
2.1 R語言的安裝及配置 7
2.1.1 R語言的獲取和安裝 8
2.1.2 RStudio的獲取和安裝 9
2.2 界面與菜單 12
2.2.1 RGui界面 12
2.2.2 RStudio界面 12
2.3 變量與數據類型 15
2.3.1 變量 15
2.3.2 數據類型 15
2.4 數據結構 17
2.4.1 向量 17
2.4.2 數組 19
2.4.3 矩陣 21
2.4.4 列表 22
2.4.5 數據框 23
2.4.6 因子 25
2.5 控制語句 26
2.5.1 條件語句 26
2.5.2 循環語句 28
2.6 函數 30
2.6.1 內置函數 30
2.6.2 自定義函數 33
第3章 數據預處理 35
3.1 數據表的基本操作 35
3.1.1 數據表保存 35
3.1.2 數據表讀取 37
3.1.3 選取子集 40
3.1.4 連接數據庫 42
3.2 數據分組、分割、合並和變形 44
3.2.1 數據分組 44
3.2.2 數據分割 46
3.2.3 數據合並 47
3.2.4 數據變形 49
3.3 缺失值、異常值、重復值處理 52
3.3.1 缺失值 52
3.3.2 異常值 59
3.3.3 重復值 61
3.4 數據類型的轉換 62
3.4.1 判斷數據類型函數 62
3.4.2 轉換數據類型的函數 63
3.5 提取字符 64
3.5.1 截取字符 64
3.5.2 正則表達式 65
第4章 探索性數據分析 69
4.1 描述性統計方法 69
4.1.1 常用統計指標 69
4.1.2 數據總結 70
4.2 數據可視化 72
4.2.1 箱線圖 72
4.2.2 直方圖 74
4.2.3 散點圖 75
4.2.4 餅圖 77
第5章 數據採集 80
5.1 網絡數據採集的原理 80
5.1.1 網頁通信的過程 80
5.1.2 請求數據的方法 87
5.1.3 網頁的組成元素 88
5.2 數據採集入門 90
5.2.1 數據採集常用包概述 90
5.2.2 數據採集前的準備 91
5.2.3 編寫第一個數據採集 92
5.3 使用常用的R包採集數據 96
5.3.1 使用RCurl包獲取網絡數據 96
5.3.2 使用rvest包獲取網絡數據 98
5.3.3 使用httr包獲取網絡數據 106
5.4 爬蟲限制處理 107
5.4.1 解決IP限制問題 108
5.4.2 驗證碼處理 109
5.4.3 登錄問題處理 110
第6章 時間序列算法 111
6.1 時間序列算法概述 111
6.1.1 時序對象 113
6.1.2 時序平滑處理 113
6.1.3 時序季節性分解 116
6.2 時序指數模型 118
6.3 時序ARIMA模型 122
第7章 線性回歸算法 129
7.1 一元線性回歸模型 129
7.2 多項式回歸模型 131
7.3 多元線性回歸模型 133
第8章 分類算法 136
8.1 Logistic回歸 136
8.1.1 Logistic回歸算法原理 137
8.1.2 邏輯回歸算法應用 139
8.2 決策樹 143
8.2.1 決策樹算法原理 143
8.2.2 決策樹算法應用 147
8.3 支持向量機 150
8.3.1 支持向量機算法原理 151
8.3.2 支持向量機算法應用 155
8.4 樸素貝葉斯 157
8.4.1 貝葉斯定理 157
8.4.2 最大似然估計 157
8.4.3 樸素貝葉斯分類算法原理 158
8.4.4 樸素貝葉斯分類算法應用 159
8.5 人工神經網絡 166
8.5.1 人工神經網絡的基本概念 166
8.5.2 感知器和人工神經元模型 167
8.5.3 前饋神經網絡 168
8.5.4 人工神經網絡算法應用 169
8.6 隨機森林 177
8.6.1 隨機森林算法原理 177
8.6.2 隨機森林算法應用 178
8.7 XGBoost算法 183
8.7.1 XGBoost算法的原理 184
8.7.2 XGBoost算法應用 187
第9章 關聯算法 189
9.1 關聯算法概述 189
9.1.1 相關名詞 190
9.1.2 關聯規則及頻繁項集的產生 190
9.2 Apriori算法 191
9.2.1 Apriori算法概述 191
9.2.2 先驗原理 191
9.2.3 連接步和剪枝步 192
9.2.4 Apriori算法流程 193
9.2.5 Apriori算法實例 193
9.3 ECLAT算法 196
9.3.1 ECLAT算法概述 196
9.3.2 ECLAT算法流程 198
9.3.3 ECLAT算法實例 198
第10章 聚類算法 202
10.1 聚類算法概述 202
10.1.1 聚類算法的類型 202
10.1.2 聚類算法評估的特點 202
10.2 K均值聚類算法 203
10.2.1 劃分方法概述 203
10.2.2 K均值聚類算法的優缺點 203
10.2.3 K均值聚類算法的流程 203
10.2.4 K均值聚類分析案例 204
10.3 凝聚式層次聚類算法 205
10.3.1 凝聚式層次聚類概述 205
10.3.2 凝聚式層次聚類算法流程 207
10.3.3 凝聚式層次聚類算法實例 209
【應用案例1】景點輿情數據採集 211
【應用案例2】旅游電商平臺數據採集 218
【應用案例3】旅游網站景點路線推薦 233
【應用案例4】旅游城市和景點的負荷預測 236
【應用案例5】精品旅行服務成單預測 239
【應用案例6】航班延誤預測 259