大數據分析師權威教程大數據分析與預測建模 大数据分析师权威教程:大数据分析与预测建模

Wrox國際IT認證項目組

買這商品的人也買了...

商品描述

“大數據”已連年入選IT領域的熱點話題,人們每天都會通過因特網、移動設備等生產大量數據。如何從海量數據中洞悉出隱藏其後的見解是當今社會各領域人士極為關註的話題。本系列圖書以“大數據分析師”應掌握的IT技術為主線,共分兩捲,以7個模塊(第1捲包括4個模塊,第2捲包括3個模塊)分別介紹大數據入門,分析和R編程入門,使用R進行數據分析,用R進行高級分析,機器學習的概念,社交媒體、移動分析和可視化,大數據分析的行業應用等核心內容,全面且詳盡地涵蓋了大數據分析的各個領域。適用於想成為大數據分析師的人員以及所有對大數據分析感興趣的技術人員和決策者閱讀。


本書為第1捲,首先提供大數據的概覽,介紹大數據概念及其在商業中的應用、處理大數據的技術、Hadoop生態系統和MapReduce的相關內容,然後介紹如何理解分析、分析方法與工具,重點講解流行分析工具R,介紹如何將數據集導入R和從R導出數據、在R中如何操縱和處理數據,最後詳細介紹R中的函數和包、R的描述性統計、R中的圖形分析、R中的假設檢驗、R中的線性回歸、非線性回歸、聚類分析、決策樹、R和Hadoop的集成及Hive,通過這些實戰內容,使讀者掌握R語言在數據分析中的全面應用。通過本書,讀者能對大數據概念、重要性及其應用有全面的瞭解,熟悉各種大數據分析工具。

作者簡介

國際知名IT培訓機構中的多名大牛講師,通過對技術、IT市場需求以及當今就業培訓方面的全球行業標准進行了廣泛並嚴格的調研之後,開發而成。作者們的這些計劃的構思目標是,成為理想的就業能力培訓項目,為那些有志於在國際IT行業取得事業成功的人提供服務。

目錄大綱

模塊1大數據入門

第1講大數據簡介3 
1.1什麼是大數據4 
1.1.1大數據的優勢5 
1.1.2挖掘各種大數據源6 
1.2數據管理的歷史——大數據的演化7 
1.3大數據的結構化9 
1.4大數據要素13 
1.4.1數據量13 
1.4.2速度14 
1.4.3多樣性14 
1.5大數據在商務環境中的應用14 
1.6大數據行業中的職業機會16 
1.6.1職業機會17 
1.6.2所需技能17 
1.6.3大數據的未來19 
練習20 
備忘單22 

第2講大數據在商業上的應用23 
2.1社交網絡數據的重要性24 
2.2金融欺詐和大數據30 
2.3保險業的欺詐檢測32 
2.4在零售業中應用大數據36 
練習40 
備忘單42 

第3講處理大數據的技術43 
3.1大數據的分佈式和並行計算44 
3.1.1並行計算技術46 
3.1.2虛擬化及其對大數據的重要性47 
3.2Hadoop簡介47 
3.3雲計算和大數據50 
3.3.1大數據計算的特性50 
3.3.2雲部署模型51
3.3.3雲交付模型52 
3.3.4大數據云52 
3.3.5大數據云市場中的供應商53 
3.3.6使用雲服務所存在的問題54 
3.4大數據內存計算技術54 
練習56 
備忘單58 

第4講了解Hadoop生態系統59 
4.1Hadoop生態系統60 
4.2用HDFS存儲數據61 
4.2.1HDFS架構62 
4.2.2HDFS的一些特殊功能65 
4.3利用HadoopMapReduce處理數據65 
4.3.1MapReduce是如何工作的66 
4.3.2MapReduce的優點和缺點66 
4.3.3利用HadoopYARN管理資源和應用67 
4.4利用HBase存儲數據68 
4.5使用Hive查詢大型數據庫69 
4.6與Hadoop生態系統的交互70 
4.6.1Pig和PigLatin70 
4.6.2Sqoop71 
4.6.3Zookeeper72 
4.6.4Flume72 
4.6 .5Oozie73 
練習74 
備忘單76 

第5講MapReduce基礎77 
5.1MapReduce的起源78 
5.2MapReduce是如何工作的79 
5.3MapReduce作業的優化技術85
5.3.1硬件/網絡拓撲85 
5.3.2同步86 
5.3.3文件系統86 
5.4MapReduce的應用86 
5.5HBase在大數據處理中的角色87 
5.6利用Hive挖掘大數據89 
練習91 
備忘單94 

模塊2分析和R編程入門

第1講理解分析97 
1.1分析與報告的對比98 
1.1.1報告99 
1.1.2分析100 
1.2基本和高級分析102 
1.3進行分析——需要考慮的事項105 
1.3.1正確限定問題的範圍105 
1.3.2統計顯著性還是業務重要性105 
1.3.3樣本與總體107 
1.3.4推理與計算統計數字的對比109 
1.4構建分析團隊110 
1.4.1成為分析師的必備技能110 
1.4.2IT與分析的融合111 
練習113 
備忘單115 

第2講分析方法與工具116 
2.1分析方法的演變117 
2.1.1集成方法117 
2.1.2商品化模型118 
2.1.3文本分析120 
2.1.4文本分析的挑戰121 
2.2分析工具的演變122 
2.3分析工具分類123 
2.3.1圖形用戶界面的興起123
2.3.2點解決方案的大爆發123 
2.3.3數據可視化工具125 
2.4一些流行的分析工具127 
2.4.1用於統計計算的R項目127 
2.4.2IBMSPSS128 
2.4.3SAS130 
2.5分析工具之間的對比131 
練習133 
備忘單135 

第3講探索R136 
3.1安裝R137 
3.2使用腳本工作138 
3.2.1RGui138 
3.2.2RStudio140 
3.2.3“Helloworld!”141 
3.2.4簡單數學運算141 
3.2.5R中的數學運算142 
3.2.6使用向量143 
3.2.7保存和計算數值144 
3.2.8回應用戶146 
3.3瀏覽工作區149 
3.3.1操縱工作區內容149 
3.3.2保存工作150 
3.3.3檢索工作150 
練習151 
備忘單153 

第4講將數據集讀入R,從R導出數據154 
4.1使用c()命令創建數據155 
4.1.1輸入數值項作為數據155 
4.1.2輸入文本項作為數據156 
4.2在R中使用scan()命令獲取數據157 
4.2.1輸入文本作為數據158
4.2.2使用剪貼板製作數據158 
4.2.3從磁盤讀取數據文件160 
4.3讀取更大的數據文件162 
4.3.1read.csv()命令163 
4.3.2在R中讀取數據的其他命令164 
4.3.3數據文件中的缺失值167 
4.4從R導出數據169 
4.5在R中保存你的工作169 
4.5.1將數據文件保存到磁盤170 
4.5.2保存命名對象170 
4.5.3保存所有操作170 
4.5 .4以文本文件形式保存數據到磁盤171 
4.5.5將向量對象寫入磁盤171 
4.5.6將矩陣和數據幀對象寫入磁盤172 
4.5.7將列表對象寫入磁盤172 
練習174 
備忘單176 

第5講在R中操縱和處理數據177 
5.1確定最合適的數據結構178 
5.2創建數據的子集179 
5.2.1指定子集179 
5.2.2構造數據幀的子集180 
5.2.3從數據中取得樣本180 
5.2.4數據子集的應用182 
5.3在數據中添加計算得到的字段184 
5.3.1在數據幀列上執行算術運算184 
5.3.2創建數據子組或者bin184 
5.4在R中組合和合併數據集186 
5.4.1創建樣本數據以說明合併的方法187
5.4.2使用merge()函數188 
5.4.3合併類型189 
5.4.4使用查找表190 
5.5分類和排序數據190 
5.5.1向量的排序191 
5.5.2數據幀的排序191 
5.5.3用apply()函數遍歷數據193 
5.6公式接口簡介196 
5.7數據整形196 
5.7.1理解長格式和寬格式數據197 
5.7.2從reshape2程序包入手198 
5.7.3將數據“熔化”為長格式199 
練習202 
備忘單204 

模塊3使用R進行數據分析

第1講使用R中的函數和包207 
1.1從腳本到函數209 
1.1.1創建腳本209 
1.1.2將腳本轉變為函數210 
1.1.3使用函數211 
1.1.4減少行數212 
1.2巧妙地使用參數214 
1.2.1增加更多參數214 
1.2.2使用點參數216 
1.2.3使用函數作為參數218 
1.3函數作用域219 
1.3.1外部函數219 
1.3.2使用內部函數221 
1.4指派方法222 
1.4.1尋找函數背後的方法223 
1.4.2以UseMethod()函數使用方法223
1.5程序包225 
1.5.1為Windows安裝程序包225 
1.5.2為Linux安裝程序包225 
1.6程序包的使用227 
1.6.1加載程序包227 
1.6.2卸載程序包227 
練習228 
備忘單230 

第2講R中的描述性統計231 
2.1匯總命令232 
2.2名稱命令234 
2.3匯總樣本235 
2.4累積統計信息239 
2.4.1簡單累計命令239 
2.4.2複雜累積命令241 
2.5數據幀的匯總統計242 
2.5.1數據幀的通用匯總命令242 
2.5.2專用的行和列匯總命令243 
2.5.3用於行/列匯總的apply()命令243 
2.6矩陣對象的匯總統計244 
2.7列表的匯總統計246 
2.8列聯表247 
2.8.1建立列聯表247 
2.8.2選擇表對象的各個部分253 
2.8.3測試表對象255 
2.8.4複雜(扁平)表256 
2.8.5測試“扁平”表對象260 
2.8.6表的匯總命令260 
2.9交叉表262 
練習267 
備忘單269 

第3講用函數、循環和數據幀分析數據270
3.1矩陣、列表和數據幀271 
3.1.1矩陣271 
3.1.2列表272 
3.1.3數據幀——數據集273 
3.2向量、矩陣和列表的索引273 
3.2.1向量的索引273 
3.2.2矩陣的索引274 
3.2.3列表的索引275 
3.3R編程276 
3.3.1表達式、賦值和算術運算符276 
3.3.2成組的表達式277 
3.3.3條件執行——if和ifelse278 
3.3.4重複執行——循環278 
3.4RHadoop280 
3.4.1安裝RHadoop281 
3.4.2創建用戶定義函數281 
練習283 
備忘單285 

第4講R中的圖形分析286 
4.1為單變量繪圖287 
4.1.1直方圖288 
4.1.2索引圖292 
4.1.3時間序列圖293 
4.1.4餅圖294 
4.1.5stripchart函數294 
4.2繪製雙變量圖表295 
4.2.1根據兩個連續解釋變量繪製圖表:散點圖296 
4.2.2使用分類解釋變量繪圖309 
4.3多重比較圖表312 
4.4繪製多變量圖表315 
4.4.1pairs函數315
4.4.2coplot函數316 
4.4.3相互作用圖表316 
4.5特殊圖表317 
4.5.1設計圖318 
4.5.2氣泡圖318 
4.5.3有許多相同值的圖表319 
4.6將圖形保存到外部文件320 
練習322 
備忘單324 

第5講R中的假設檢驗325 
5.1統計假設簡介326 
5.1.1假設檢驗327 
5.1.2決策錯誤327 
5.2使用學生t檢驗327 
5.2.1使用不相等方差的雙樣本t檢驗328 
5.2.2使用相等方差的雙樣本t檢驗328 
5.2.3單樣本t檢驗328 
5.2.4t檢驗中的公式語法和样本子集構建329 
5.3u檢驗333 
5.3.1雙樣本u檢驗333 
5.3.2單樣本u檢驗334 
5.3.3u檢驗中的公式語法和样本子集構建335 
5.4配對t檢驗和u檢驗338 
5.4.1相關和協方差340 
5.4.2協方差342 
5.4.3相關檢驗中的顯著性檢驗343 
5.4. 4公式語法343 
5.5關聯分析檢驗346 
5.6擬合優度檢驗348 
練習352 
備忘單354 

模塊4使用R進行高級分析

第1講R中的線性回歸357 
1.1線性回歸分析基礎知識358 
1.1.1簡單線性回歸358 
1.1.2多重線性回歸359 
1.1.3最小二乘估計360 
1.1.4檢查模型適當性361 
1.1.5回歸輸出的解讀363 
1.1.6回歸假設364 
1.1.7多重共線性365 
1.1.8檢測多重共線性365 
1.2使用線性回歸進行工作367 
1.2.1確定x和y變量367 
1.2.2檢查條件368 
1.2.3回歸線的計算368 
1.2.4求取斜率369 
1.2.5求取y截距369 
1.2.6回歸線的解讀369 
1.2.7做出正確的預測371 
1.3R中的簡單線性回歸371 
1.3.1R的5個著名函數371 
1.3.2校正的平方和及乘積和372 
1.3.3分散度372 
1.3.4回歸中的方差分析373 
1.3.5AIC373 
1.3.6參數不可靠性的估算373 
1.3.7用擬合模型預測374 
1.3.8檢查模型374 
1.4線性模型結果對象375 
1.4.1係數377 
1.4.2擬合值377 
1.4.3殘差378 
1.4.4公式378
1.4.5最佳擬合線378 
1.5模型的構建379 
1.5.1用前向逐步回歸增加項380 
1.5.2用後向刪除方法刪除項382 
1.5.3模型的比較383 
1.6曲線回歸384 
練習386 
備忘單389 

第2講非線性回歸390 
2.1非線性回歸分析簡介391 
2.2非線性回歸和廣義線性模型391 
2.3邏輯回歸392 
2.3.1解讀邏輯回歸中的β係數394 
2.3.2計算β係數395 
2.3. 3具有交互變量的邏輯回歸395 
2.3.4具有指示變量的邏輯回歸396 
2.3.5邏輯回歸模型適當性檢查396 
2.3.6使用邏輯回歸線進行預測397 
2.4用MLE進行線估算400 
2.5將非線性模型轉化為線性模型401 
2.6其他非線性回歸模型402 
2.7廣義加性模型406 
2.8自啟動函數407 
2.8.1自啟動Michaelis—Menten模型407 
2.8.2自啟動漸近指數模型408 
2.8.3輪廓似然409 
2.8 .4自啟動邏輯409 
2.8.5自啟動四參數邏輯409 
2.8.6自啟動Weibull增長函數410 
2.8.7自啟動一階房室函數411
2.9用拔靴法建立一個非線性回歸家族411 
2.10邏輯回歸的應用413 
2.10.1貸款接納414 
2.10.2德國信用數據414 
2.10.3延誤的航班415 
練習416 
備忘單418 

第3講聚類分析419 
3.1聚類簡介421 
3.1.1聚類的應用421 
3.1.2聚類的複雜性422 
3.1.3距離計量422 
3.1.4簇內和簇間平方和423 
3.1.5高效聚類的屬性424 
3.2凝聚層次聚類425 
3.2.1主要距離426 
3.2.2密度估算方法427 
3.3相似性聚合聚類428 
3.3.1相似性聚合的原理428 
3.3.2相似性聚合聚類的實施428 
3.4Ramap包的用法429 
3.5k均值聚類431 
3.6R聚類示例:歐洲人的蛋白質攝入431 
3.7R聚類示例:美國月度失業率434 
3.8在R中實施層次聚類435 
3.8.1例1:重溫歐洲人蛋白質攝入435 
3.8.2例2:重溫美國月度失業率436 
練習437 
備忘單439 

第4講決策樹440 
4.1決策樹的應用441 
4.2決策樹原理444
4.2.1選擇變量——創建樹的第1步444 
4.2.2拆分標準445 
4.2.3為節點分配數據——創建樹的第2步447 
4.2.4修剪——創建樹的第3步447 
4.3構建決策樹448 
4.3.1決策樹如何確定純度?449 
4.3.2使用決策樹時的實際考慮因素450 
4.3.3決策樹選項451 
4.4CART、C5.0和CHAID樹451 
4.4.1CART452 
4.4.2C5.0454 
4.4.3CHAID455 
4.4.4決策樹對比456 
4.5用決策樹預測457 
4.6決策樹的優缺點458 
4.6.1決策樹的優點458 
4.6.2決策樹的缺點458 
4.7在R中構建決策樹459 
練習462 
備忘單464 

第5講R和Hadoop的集成及Hive介紹465 
5.1Hadoop466 
5.1.1HDFS467 
5.1.2MapReduce468 
5.1.3Hadoop的應用468 
5.2集成R和Hadoop——RHadoop469 
5.2.1安裝RHadoop470 
5.2.2在R中使用RHadoop472 
5.3通過文本挖掘得到有用信息474 
5.4Hive簡介477
5.4.1元存儲477 
5.4.2數據庫477 
5.4.3數據類型477 
5.4.4查詢語言478 
5.4.5Hive命令478 
5.4.6Hive交互和非交互模式479 
練習480 
備忘單482 
附錄A在R中可以完成的10件MicrosoftExcel工作484