CDA數據分析師系列叢書:Spark大數據分析技術與實戰 CDA数据分析师系列丛书:Spark大数据分析技术与实战

董軼群, 曹正鳳, 趙仁乾, 王安

立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

Spark作為下一代大數據處理引擎,經過短短幾年的飛躍式發展,正在以燎原之勢席捲業界,現已成為大數據產業中的一股中堅力量。本書著重講解了Spark內核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念與理論框架,並提供了相應的示例與解析。全書共分8章,其中前4章介紹Spark內核,主要包括Spark簡介、集群部署、工作原理、核心概念與操作等;後4章分別介紹Spark內核上的核心組件,每章系統地介紹Spark的一個組件,並附以相應的案例分析。本書適合作為高等院校電腦相關專業的研究生學習參考資料,也適合大數據技術初學者閱讀,還適合於所有願意對大數據技術有所瞭解並想要將大數據技術應用於本職工作的讀者閱讀。

作者簡介

經管之家(www.jg.com.cn):原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內優秀的經濟、管理、金融、統計類的在線教育和諮詢網站,也是國內活躍和具影響力的經管類網絡社區。經管之家從2006年起在國內開展數據分析培訓,累計培訓學員數万人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,致力於為社會各界數據分析愛好者提供優質、科學、系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓​​學員達3千餘名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每週線下免費沙龍活動,已舉力40多期,累積會員2千餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。

目錄大綱

第1章Spark導論1 


1.1Spark的發展2 
1.2什麼是Spark3 
1.3Spark主要特徵3 
1.3.1快速3 
1.3.2簡潔易用5 
1.3.3通用6 
1.3.4多種運行模式8 


第2章Spark集群部署9 


2.1運行環境說明9 
2.1.1軟硬件環境9 
2.1.2集群網絡環境10 
2.2安裝VMwareWorkstation1110 
2.3安裝CentOS616 
2.4安裝Hadoop21 
2.4.1克隆並啟動虛擬機21 
2.4.2網絡基本配置24 
2.4.3安裝JDK27 
2.4.4免密鑰登錄配置28 
2.4.5Hadoop配置29 
2.4.6配置從節點33 
2.4.7配置系統文件33 
2.4.8啟動Hadoop集群33 
2.5安裝Scala35 
2.6安裝Spark36 
2.6.1下載並解壓Spark安裝包36 
2.6.2配置Spark—env.sh37 
2.6.3配置Spark—defaults.conf37 
2.6.4配置Slaves38 
2.6.5配置環境變量38 
2.6.6發送至Slave1、Slave239 
2.7啟動Spark39 


第3章RDD編程42 


3.1 RDD定義42 
3.2RDD的特性43 
3.2.1分區43 
3.2.2依賴44 
3.2.3計算45 
3.2.4分區函數45 
3.2.5優先位置46 
3.3創建操作46 
3.3.1基於集合的創建操作47 
3.3. 2基於外部存儲的創建操作47 
3.4常見執行操作49 
3.5常 轉換操作49 
3.5.1一元轉換操作50 
3.5.2二元轉換操作53 
3.6持久化操作56 
3.7存儲操作58 


第4章Spark調度管理與應用程序開發59 


4.1Spark調度管理基本概念59 
4.2作業調度流程60 
4.2.1作業的生成與提交61 
4.2.2階段的劃分62 
4.2.3調度階段的提交62 
4.2.4任務的提交與執行62 
4.3基於IntelliJIDEA構建Spark應用程序64 
4.3.1安裝IntelliJIDEA64 
4.3.2創建Spark應用程序70 
4.3.3集群模式運行Spark應用程序81 


第5章GraphX87 


5.1GraphX概述87 
5.2GraphX基本原理89 
5.2.1圖計算模型處理流程89 
5.2.2GraphX定義90 
5.2.3GraphX的特點90 
5.3GraphX設計與實現91 
5.3.1彈性分佈式屬性圖91 
5.3.2圖的數據模型92 
5.3.3圖的存儲模型94 
5.3.4GraphX模型框架97 
5.4GraphX操作97 
5.4.1創建圖97 
5.4.2基本屬性操作100 
5.4.3結構操作102 
5.4.4轉換操作103 
5.4.5連接操作105 
5.4.6聚合操作106 
5.5GraphX案例解析107 
5.5.1PageRank算法與案例解析107 
5.5.2TriangleCount算法與案例解析110 


第6章SparkSQL113 


6.1SparkSQL概述113 
6.2SparkSQL邏輯架構116 
6.2.1SQL執行流程116 
6.2.2Catalyst117 
6.3SparkSQLCLI117 
6.3.1硬軟件環境117 
6.3.2集群環境118 
6.3.3結合Hive118 
6.3.4啟動Hive118 
6.4DataFrame編程模型119 
6.4.1DataFrame簡介119 
6.4.2創建DataFrames120 
6.4.3保存DataFrames126 
6.5DataFrame常見操作127 
6.5.1數據展示127 
6.5.2常用列操作128 
6.5.3過濾131 
6.5.4排序132 
6.5.5其他常見操作134 
6.6基於Hive的學生信息管理系統的SQL查詢案例與解析137 
6.6.1SparkSQL整合Hive137 
6.6.2構建數據倉庫138 
6.6.3加載數據141 
6.6.4查詢數據142 


第7章SparkStreaming146 


7.1SparkStreaming概述146 
7.2 SparkStreaming基礎概念147 
7.2.1批處理時間間隔147 
7.2.2窗口時間間隔148 
7.2.3滑動時間間隔148 
7.3DStream基本概念149 
7.4DStream的基本操作150 
7.4.1無狀態轉換操作150 
7.4.2有狀態轉換操作152 
7.4.3輸出操作153 
7.4.4持久化操作154 
7.5數據源154 
7.5.1基礎數據源154 
7.5.2高級數據源155 
7.6SparkStreaming編程模式與案例分析156 
7.6.1SparkStreaming編程模式156 
7.6.2文本文件數據處理案例(一)157 
7.6.3文本文件數據處理案例(二)160 
7.6.4網絡數據處理案例(一)164 
7.6 .5網絡數據處理案例(二)171 
7.6.6stateful應用案例175 
7.6.7window應用案例180 
7.7性能考量185 
7.7.1運行時間優化185 
7.7.2內存使用與垃圾回收186 


第8章SparkMLlib187 


8.1SparkMLlib概述187 
8.1.1機器學習介紹187 
8.1.2SparkMLlib簡介189 
8.2MLlib向量與矩陣190 
8.2.1MLlib向量190 
8.2.2MLlib矩陣192 
8.3SparkMLlib分類算法196 
8.3.1貝葉斯分類算法197 
8.3.2支持向量機算法201 
8.3.3決策樹算法204 
8.4MLlib線性回歸算法208 
8.5MLlib聚類算法212 
8.6MLlib協同過濾215