實用數據分析, 2/e (Practical Data Analysis, 2/e)

赫克托·奎斯塔 (Hector Cuesta), 桑帕斯·庫馬爾 (Dr.Sampath Kumar)

買這商品的人也買了...

商品描述

本書提供了一系列將數據轉化為重要結論的現實案例。書中覆蓋了廣泛的數據分析工具和算法,用於進行分類分析、聚類分析、數據可視化、數據模擬以及預測。本書的目標是幫助讀者瞭解數據從而找到相應的模式、趨勢、相互關系以及重要結論。書中所包括的實用項目充分利用了MongoDB、D3.js和Python語言,並採用代碼片段和詳細描述的方式呈現本書的核心概念。

作者簡介

作者簡介About the AuthorHector Cuesta Dataxios(一家機器智能研發公司)的創辦人及首席數據科學家,擁有信息學士及計算機科學碩士學位。他在金融、零售、金融科技、在線學習、人力資源等領域提供數據驅動產品設計的諮詢服務。在空閒時間,他熱衷於研究機器人。
本書獻給我的妻子Yolanda和我可愛的孩子Damian和Issac,他們為我的生活帶來了無比的快樂。同時把本書獻給我的父母Elena和Miguel,感謝他們對我的支持和愛護。
Dr. Sampath Kumar Telangana大學應用統計系的助理教授和系主任,他擁有理學碩士、哲學碩士和統計學博士學位,擁有5年研究生教學經驗,有超過4年的工作經驗。他是SAS和MATLAB軟件高級程序員,專長是利用SPSS、SAS、R、Minitab、MATLAB等軟件進行數據統計。他在不同的應用學科和純統計專業(如預測建模、應用回歸分析、多變量數據分析、運營管理等)方面具有教學經驗。

目錄大綱

目錄Contents 

譯者序
作者簡介
審校者簡介
前言

第1章開始1 
1.1計算機科學1 
1.2人工智能2 
1.3機器學習2 
1.4統計學2 
1.5數學2 
1.6專業領域知識3 
1.7數據、信息和知識3 
1.7. 1數據、信息和知識之間的相互性3 
1.7.2數據的本質4 
1.8數據分析過程5 
1.8.1問題6 
1.8.2數據準備6 
1.8.3數據探索7 
1.8.4預測建模7 
1.8. 5結果可視化8 
1.9定量與定性數據分析9 
1.10數據可視化的重要性9 
1.11大數據10 
1.12自我量化12 
1.12.1傳感器和攝像頭12 
1.12.2社交網絡分析13 
1.13本書的工具和練習13 
1.13. 1為什麼使用Python14 
1.13.2為什麼使用mlpy14 
1.13.3為什麼使用D3.js14 
1.13.4為什麼使用MongoDB15
1.14小結15 

第2章數據預處理16 
2.1數據源16 
2.1.1開源數據17 
2.1.2文本文件18 
2.1.3 Excel文件18 
2.1.4 SQL數據庫18 
2.1.5 NoSQL數據庫19 
2.1.6多媒體20 
2.1 .7網頁檢索20 
2.2數據清洗22 
2.2.1統計方法23 
2.2.2文本解析23 
2.2.3數據轉化25 
2.3數據格式25 
2.3.1 CSV26 
2.3.2 JSON27 
2.3.3 XML28 
2.3.4 YAML29 
2.4數據歸約30 
2.4.1過濾及抽樣30 
2.4.2分箱算法30 
2.4.3降維31 
2.5開始使用OpenRefine工具32 
2.5.1 text facet33 
2.5.2聚類33 
2.5.3文本過濾器34 
2.5.4 numeric facet34 
2.5.5數據轉化35 
2.5.6數據輸出36 
2.5.7操作歷史記錄36 
2.6小結37

第3章可視化38 
3.1可視化概述39 
3.2利用網頁版的可視化39 
3.3探索科學可視化39 
3.4在藝術上的可視化40 
3.5可視化生命週期40 
3.6可視化不同類型的數據41 
3.6.1 HTML41 
3.6.2 DOM42 
3.6. 3 CSS42 
3.6.4 JavaScript43 
3.6.5 SVG43 
3.7開始使用D3.js43 
3.7.1柱狀圖44 
3.7.2餅圖48 
3.7.3散點圖50 
3.7.4單線圖52 
3.7.5多線圖55 
3.8交互與動畫59 
3.9社交網絡中的數據61 
3.10可視化分析的摘要62 
3.11小結62
 
第4章文本分類63 
4.1學習和分類63 
4.2貝葉斯分類64 
4.3 E-mail主題測試器65 
4.4數據66 
4.5算法68 
4.6分類器的準確性71 
4.7小結73 

第5章基於相似性的圖像檢索74 
5.1圖像相似性搜索74
5.2動態時間規整75 
5.3處理圖像數據集77 
5.4執行DTW77 
5.5結果分析79 
5.6小結81 

第6章模擬股票價格82 
6.1金融時間序列82 
6.2隨機漫步模擬83 
6.3蒙特卡羅方法84 
6.4生成隨機數85 
6.5用D3.js實現86 
6.6計量分析師91 
6.7小結93 

第7章預測黃金價格94 
7.1處理時間序列數據94 
7.2平滑時間序列97 
7.3線性回歸100 
7.4數據—歷史黃金價格101 
7.5非線性回歸101 
7.5. 1核嶺回歸102 
7.5.2平滑黃金價格時間序列104 
7.5.3平滑時間序列的預測105 
7.5.4對比預測值106 
7.6小結107 

第8章使用支持向量機的方法進行分析108 
8.1理解多變量數據集109 
8.2降維111 
8.2.1線性無差別分析112 
8.2.2主成分分析112 
8.3使用支持向量機114 
8.3.1核函數115 
8.3.2雙螺旋問題116
8.3.3在mlpy中實現SVM116 
8.4小結119 

第9章應用細胞自動機的方法對傳染病進行建模120 
9.1流行病學簡介120 
9.2流行病模型122 
9.2.1 SIR模型122 
9.2.2使用SciPy來解決SIR模型的常微分方程123 
9.2.3 SIRS模型124 
9.3對細胞自動機進行建模125 
9.3.1細胞、狀態、網格和鄰域126 
9.3.2整體隨機訪問模型127 
9.4通過D3.js模擬CA中的SIRS模型127 
9.5小結135 

第10章應用社交圖譜136 
10.1圖譜的結構136 
10.1.1無向圖137 
10.1.2有向圖137 
10.2社交網絡分析137 
10.3捕獲Facebook圖譜138 
10.4使用Gephi再現圖譜139 
10.5統計分析142 
10.6度的分佈144 
10.6.1圖譜直方圖145 
10.6.2集中度146 
10.7將GDF轉化為JSON148 
10.8在D3.js環境下進行圖譜可視化150 
10.9小結154 

第11章分析Twitter數據155
11.1解析Twitter數據155 
11.1.1 tweet156 
11.1.2粉絲156 
11.1.3熱門話題156 
11.2使用OAuth訪問Twitter API157 
11.3開始使用Twython158 
11.3.1利用Twython進行簡單查詢159 
11.3.2獲取時間表數據163 
11.3.3獲取粉絲數據165 
11.3.4獲取地點和趨勢信息167 
11.3.5獲取用戶數據168 
11.3.6 API流169 
11.4小結171 

第12章使用MongoDB進行數據處理和聚合172 
12.1開始使用MongoDB172 
12.1.1數據庫173 
12.1 .2集合175 
12.1.3文件175 
12.1.4 Mongo shell175 
12.1.5 Insert/Update/Delete176 
12.1.6查詢177 
12.2數據準備178 
12.2.1使用OpenRefine進行數據轉換179 
12.2.2通過PyMongo插入文件180 
12.3分組182 
12.4聚合框架184 
12.4.1流水線184
12.4.2表達式185 
12.5小結186 

第13章使用MapReduce方法188 
13.1 MapReduce概述188 
13.2編程模型189 
13.3在MongoDB中使用MapReduce190 
13.3.1 map函數190 
13.3.2 reduce函數191