買這商品的人也買了...
-
大話資料結構$590$466 -
$294Android 三維程式設計 — 基於 OpenGL ES 的圖形應用程式設計 (Learn OpenGL ES: For Mobile Game and Graphics Development) -
Python 程式設計實務-從初學到活用 Python 開發技巧的16堂課$560$437 -
學會 Swift 3 程式設計的 21堂課$450$356 -
iOS 10 App 程式設計實力超進化實戰攻略 : 知名 iOS教學部落格 AppCoda 作家親授實作關鍵技巧讓你不NG$720$562 -
Python 初學特訓班 (附250分鐘影音教學/範例程式)$480$379 -
今天不學機器學習,明天就被機器取代:從 Python 入手+演算法$590$502 -
超圖解 Arduino 互動設計入門, 3/e$680$578 -
Python 自動化的樂趣|搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)$500$425 -
系統管理員懶人包|Shell Script 自動化指令集 (Wicked Cool Shell Scripts)$480$408 -
ASP.NET Core 跨平臺開發從入門到實戰$390$371 -
TensorFlow + Keras 深度學習人工智慧實務應用$590$460 -
寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)$390$308 -
Docker 入門與實戰, 2/e$500$395 -
$474Python 地理數據處理 (Geoprocessing with Python) -
翻倍效率工作術 - 不會就太可惜的 Excel+Power BI 大數據視覺圖表設計與分析$320$253 -
實戰 Google 深度學習技術:使用 TensorFlow$520$411 -
Deep Learning|用 Python 進行深度學習的基礎理論實作$580$458 -
$301Spark與Hadoop大數據分析 (Big Data Analytics) -
$505概率機器人 (Probabilistic robotics) -
Python 網路爬蟲實戰$490$245 -
$352白話深度學習與 TensorFlow -
$474大數據之路:阿裡巴巴大數據實踐 -
大數據時代一定要會的自動化資料搜集術$480$408 -
SQL Server 與 R 開發實戰講堂$680$578
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
Spark作為下一代大數據處理引擎,經過短短幾年的飛躍式發展,正在以燎原之勢席捲業界,現已成為大數據產業中的一股中堅力量。本書著重講解了Spark內核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念與理論框架,並提供了相應的示例與解析。全書共分8章,其中前4章介紹Spark內核,主要包括Spark簡介、集群部署、工作原理、核心概念與操作等;後4章分別介紹Spark內核上的核心組件,每章系統地介紹Spark的一個組件,並附以相應的案例分析。本書適合作為高等院校電腦相關專業的研究生學習參考資料,也適合大數據技術初學者閱讀,還適合於所有願意對大數據技術有所瞭解並想要將大數據技術應用於本職工作的讀者閱讀。
作者簡介
經管之家(www.jg.com.cn):原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內優秀的經濟、管理、金融、統計類的在線教育和諮詢網站,也是國內活躍和具影響力的經管類網絡社區。經管之家從2006年起在國內開展數據分析培訓,累計培訓學員數萬人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,致力於為社會各界數據分析愛好者提供優質、科學、系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓學員達3千餘名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每週線下免費沙龍活動,已舉力40多期,累積會員2千餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。
目錄大綱
第1章Spark導論1
1.1Spark的發展2
1.2什麼是Spark3
1.3Spark主要特徵3
1.3.1快速3
1.3.2簡潔易用5
1.3.3通用6
1.3.4多種運行模式8
第2章Spark集群部署9
2.1運行環境說明9
2.1.1軟硬件環境9
2.1.2集群網絡環境10
2.2安裝VMwareWorkstation1110
2.3安裝CentOS616
2.4安裝Hadoop21
2.4.1克隆並啟動虛擬機21
2.4.2網絡基本配置24
2.4.3安裝JDK27
2.4.4免密鑰登錄配置28
2.4.5Hadoop配置29
2.4.6配置從節點33
2.4.7配置系統文件33
2.4.8啟動Hadoop集群33
2.5安裝Scala35
2.6安裝Spark36
2.6.1下載並解壓Spark安裝包36
2.6.2配置Spark—env.sh37
2.6.3配置Spark—defaults.conf37
2.6.4配置Slaves38
2.6.5配置環境變量38
2.6.6發送至Slave1、Slave239
2.7啟動Spark39
第3章RDD編程42
3.1 RDD定義42
3.2RDD的特性43
3.2.1分區43
3.2.2依賴44
3.2.3計算45
3.2.4分區函數45
3.2.5優先位置46
3.3創建操作46
3.3.1基於集合的創建操作47
3.3. 2基於外部存儲的創建操作47
3.4常見執行操作49
3.5常 轉換操作49
3.5.1一元轉換操作50
3.5.2二元轉換操作53
3.6持久化操作56
3.7存儲操作58
第4章Spark調度管理與應用程序開發59
4.1Spark調度管理基本概念59
4.2作業調度流程60
4.2.1作業的生成與提交61
4.2.2階段的劃分62
4.2.3調度階段的提交62
4.2.4任務的提交與執行62
4.3基於IntelliJIDEA構建Spark應用程序64
4.3.1安裝IntelliJIDEA64
4.3.2創建Spark應用程序70
4.3.3集群模式運行Spark應用程序81
第5章GraphX87
5.1GraphX概述87
5.2GraphX基本原理89
5.2.1圖計算模型處理流程89
5.2.2GraphX定義90
5.2.3GraphX的特點90
5.3GraphX設計與實現91
5.3.1彈性分佈式屬性圖91
5.3.2圖的數據模型92
5.3.3圖的存儲模型94
5.3.4GraphX模型框架97
5.4GraphX操作97
5.4.1創建圖97
5.4.2基本屬性操作100
5.4.3結構操作102
5.4.4轉換操作103
5.4.5連接操作105
5.4.6聚合操作106
5.5GraphX案例解析107
5.5.1PageRank算法與案例解析107
5.5.2TriangleCount算法與案例解析110
第6章SparkSQL113
6.1SparkSQL概述113
6.2SparkSQL邏輯架構116
6.2.1SQL執行流程116
6.2.2Catalyst117
6.3SparkSQLCLI117
6.3.1硬軟件環境117
6.3.2集群環境118
6.3.3結合Hive118
6.3.4啟動Hive118
6.4DataFrame編程模型119
6.4.1DataFrame簡介119
6.4.2創建DataFrames120
6.4.3保存DataFrames126
6.5DataFrame常見操作127
6.5.1數據展示127
6.5.2常用列操作128
6.5.3過濾131
6.5.4排序132
6.5.5其他常見操作134
6.6基於Hive的學生信息管理系統的SQL查詢案例與解析137
6.6.1SparkSQL整合Hive137
6.6.2構建數據倉庫138
6.6.3加載數據141
6.6.4查詢數據142
第7章SparkStreaming146
7.1SparkStreaming概述146
7.2 SparkStreaming基礎概念147
7.2.1批處理時間間隔147
7.2.2窗口時間間隔148
7.2.3滑動時間間隔148
7.3DStream基本概念149
7.4DStream的基本操作150
7.4.1無狀態轉換操作150
7.4.2有狀態轉換操作152
7.4.3輸出操作153
7.4.4持久化操作154
7.5數據源154
7.5.1基礎數據源154
7.5.2高級數據源155
7.6SparkStreaming編程模式與案例分析156
7.6.1SparkStreaming編程模式156
7.6.2文本文件數據處理案例(一)157
7.6.3文本文件數據處理案例(二)160
7.6.4網絡數據處理案例(一)164
7.6 .5網絡數據處理案例(二)171
7.6.6stateful應用案例175
7.6.7window應用案例180
7.7性能考量185
7.7.1運行時間優化185
7.7.2內存使用與垃圾回收186
第8章SparkMLlib187
8.1SparkMLlib概述187
8.1.1機器學習介紹187
8.1.2SparkMLlib簡介189
8.2MLlib向量與矩陣190
8.2.1MLlib向量190
8.2.2MLlib矩陣192
8.3SparkMLlib分類算法196
8.3.1貝葉斯分類算法197
8.3.2支持向量機算法201
8.3.3決策樹算法204
8.4MLlib線性回歸算法208
8.5MLlib聚類算法212
8.6MLlib協同過濾215
