R 語言數據分析 R语言数据分析

哥格利·達羅克茲(Gergely Daroczi)

買這商品的人也買了...

商品描述

<內容簡介>

本書共分為14章,重點探討了數據預處理的方法,包括數據獲取、篩選、重構、建模、平滑以及降維,本書還介紹了分類和聚類等幾種主要的數據分析方法,zui後探討了網絡數據、時序數據、空間數據及社交媒體數據等一些特殊類型數據的分析處理。

<章節目錄>

譯者序
前言
第1章你好,數據!1
1.1導入一個大小合適的文本文件2
1.2文本文件編譯測試平臺5
1.3導入文本文件的子集6
1.4從數據庫中導入數據8
1.4.1搭建測試環境9
1.4.2 MySQL和MariaDB 11
1.4.3 PostgreSQL 15
1.4.4 Oracle數據庫17
1.4.5訪問ODBC數據庫22
1.4.6使用圖形化用戶面連接數據庫23
1.4.7其他數據庫後台24
1.5從其他統計系統導入數據25
1.6導入Excel電子表格26
1.7小結26
第2章從Web獲取數據28
2.1從Internet導入數據集29
2.2其他流行的在線數據格式32
2.3從HTML表中讀取數據37
2.4從其他在線來源獲取數據39
2.5使用R包與數據源API交互42
2.5 .1 Socrata的開源數據API 43
2.5.2金融API 44
2.5.3使用Quandl獲取時序數據45
2.5.4 Google文檔和統計數據46
2.5.5在線搜索的發展趨勢47
2.5.6天氣歷史數據48
2.5. 7其他在線數據源49
2.6小結49
第3章數據篩選和匯總50
3.1去掉多餘的數據50
3.1.1快速去掉多餘數據52
3.1.2快速去掉多餘數據的其他方法53
3.2聚集54
3.2.1使用基礎的R命令實現快速聚集55
3.2.2方便的輔助函數56
3.2.3高性能的輔助函數57
3.2.4使用data.table完成聚集59
3.3測試59
3.4匯總函數62
3.5小結64
第4章數據重構65
4.1矩陣轉置65
4.2基於字符串匹配實現數據篩選66
4.3數據重排序67
4.4 dplyr包和data.table包的比較70
4.5創建新變量70
4.5.1內存使用分析71
4.5.2同時創建多個變量72
4.5.3採用dplyr包生成新變量73
4.6數據集合併74
4.7靈活地實現數據整形76
4.7.1將寬表轉換為長表77
4.7.2將長表轉換為寬表78
4.7.3性能調整80
4.8 reshape包的演變80
4.9小結81
第5章建模82
5.1多元模型的由來83
5.2線性回歸及連續預測變量83
5.2.1模型解釋83
5.2.2多元預測85
5.3模型假定87
5.4回歸線的擬合效果90
5.5離散預測變量92
5.6小結95
第6章線性趨勢直線外的知識96
6.1工作流建模96
6.2邏輯回歸97
6.2.1數據思考100
6.2.2模型擬合的好處101
6.2.3模型比較102
6.3計數模型102
6.3.1泊松回歸103
6.3.2負二項回歸107
6.3.3多元非線性模型107
6.4小結115
第7章非結構化數據116
7.1導入語料庫116
7.2清洗語料庫118
7.3展示語料庫的高頻詞121
7.4深度清洗121
7.4.1詞幹提取122
7.4.2詞形還原124
7.5詞條關聯說明124
7.6其他一些度量125
7.7文檔分段126
7.8小結128
第8章數據平滑129
8.1缺失值的類型和來源129
8.2確定缺失值130
8.3忽略缺失值131
8.4去掉缺失值134
8.5在分析前或分析中篩選缺失值136
8.6填補缺失值136
8.6.1缺失值建模138
8.6.2不同填補方法的比較140
8.6.3不處理缺失值141
8.6.4多重填補141
8.7異常值和孤立點141
8.8使用模糊方法144
8.9小結146
第9章從大數據到小數據147
9.1充分性測試148
9.1. 1正態性148
9.1.2多元變量正態性149
9.1.3變量間的依賴關係152
9.1.4 KMO和Barlett檢驗154
9.2主成分分析157
9.2.1 PCA算法158
9.2.2確定成分數159
9.2 .3成分解釋161
9.2.4旋轉方法164
9.2.5使用PCA檢測孤立點167
9.3因子分析170
9.4主成分分析和因子分析172
9.5多維尺度分析173
9.6小結176
第10章分類和聚類177
10.1聚類分析178
10.1.1層次聚類178
10.1.2確定簇的理想個數181
10.1.3 k均值聚類183
10.1.4可視化聚類185
10.2潛類別模型186
10.2.1潛類別分析187
10.2.2 LCR模型189
10.3判別分析189
10.4邏輯回歸192
10.5機器學習算法194
10.5.1 k近鄰算法195
10.5.2分類樹197
10.5.3隨機森林200
10.5.4其他算法201
10.6小結203
第11章基於R的社會網絡分析204
11.1裝載網絡數據204
11.2網絡中心性度量206
11.3網絡數據的展現207
11.3.1交互網絡圖210
11.3.2繪製層次圖211
11.3.3使用R包來解釋包的依賴關係212
11.4更多網絡分析資源212
11.5小結213
第12章時序數據分析214
12.1創建時序對象214
12.2展現時序數據215
12.3季節性分解217
12.4 Holt-Winters篩選218
12.5自回歸積分滑動平均模型220
12.6孤立點檢測221
12.7更複雜的時序對象224
12.8高級時序數據分析225
12.9小結225
第13章我們身邊的數據226
13.1地理編碼226
13.2在空間中展示數據點228
13.3找出數據點的多邊形重疊區域230
13.4繪製主題圖232
13.5圍繞數據點繪製多邊形233
13.5.1等高線234
13.5.2馮洛諾伊圖236
13.6衛星圖237
13.7交互圖238
13.7.1查詢Google地圖238
13.7.2 Java腳本地圖庫240
13.8其他繪圖方法242
13.9空間數據分析244
13.10小結246
第14章分析R社區247
14.1 R創始團隊的成員247
14.2 R開發包的維護人員249
14.3 R-help郵件列表253
14.3.1 R-help郵件列表的規模256
14.3 .2預測未來的郵件規模258
14.4分析用戶列表的重疊部分260
14.5社交媒體內的R用戶數262
14.6社交媒體中與R相關的貼子263
14.7小結266
附錄267