Spark 3.x大數據分析實戰(視頻教學版)
張偉洋
- 出版商: 清華大學
- 出版日期: 2022-09-01
- 定價: $534
- 售價: 8.5 折 $454
- 語言: 簡體中文
- ISBN: 7302614504
- ISBN-13: 9787302614500
-
相關分類:
Spark、大數據 Big-data
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
Spark 學習手冊 (Learning Spark: Lightning-Fast Big Data Analysis)$520$411 -
Cassandra 技術手冊, 2/e (Cassandra: The Definitive Guide, 2/e)$580$458 -
Python 神乎其技:精要剖析語法精髓,大幅提升程式功力!$520$442 -
類神經網路實戰:使用 Python (Make Your Own Neural Network)$420$328 -
$327Hive 實戰 -
極詳細 + 超深入:最新版 TensorFlow 1.x/2.x 完整工程實作$1,200$948 -
中臺架構與實現:基於 DDD 和微服務$534$507 -
Python 滲透測試實戰$474$450 -
$474Python 大數據處理庫 PySpark 實戰 -
$230Hive數據倉庫案例教程 -
第一次用 Youtube 行銷就上手$450$356 -
精通 Hadoop 3$894$849 -
$536MongoDB 核心原理與實踐 -
$483監控平臺解密:IT系統風險感知和洞察 -
$284大數據技術基礎及應用教程(Linux+Hadoop+Spark) -
Quantum Mechanics: Concepts and Applications, 3/e (Paperback)$1,950$1,911 -
$505Hadoop 3.x 大數據開發實戰 (視頻教學版) -
$327Hadoop大數據技術基礎與應用 -
0接觸行銷術:活用 YouTube、Amazon、Google 三大平台,不用交際、不拉業務也能賺進大把訂單$400$340 -
Notion 應用再進化:Notion AI 輔助 + ChatGPT 實戰指南$690$545 -
$551劍指大數據 — Flink實時數據倉庫項目實戰 (電商版) -
深入淺出 Spring Boot 3.x$779$740 -
Kubernetes 企業級雲原生運維實戰$714$678 -
YouTube 致富聖經:衝高流量與財富的秘密,你想知道 YouTube 的一切都在這裡!$480$379 -
AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事$750$593
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
目錄大綱
目 錄
第1章 Spark開發準備——Scala基礎 1
1.1 什麼是Scala 1
1.2 安裝Scala 1
1.2.1 在Windows中安裝Scala 2
1.2.2 在CentOS 7中安裝Scala 3
1.3 Scala基礎 3
1.3.1 變量聲明 4
1.3.2 數據類型 5
1.3.3 表達式 6
1.3.4 循環 7
1.3.5 方法與函數 9
1.4 集合 12
1.4.1 數組 12
1.4.2 List 14
1.4.3 Map映射 15
1.4.4 元組 17
1.4.5 Set 18
1.5 類和對象 19
1.5.1 類的定義 19
1.5.2 單例對象 20
1.5.3 伴生對象 20
1.5.4 get和set方法 20
1.5.5 構造器 23
1.6 抽象類和特質 25
1.6.1 抽象類 25
1.6.2 特質 26
1.7 使用Eclipse創建Scala項目 28
1.7.1 安裝Scala for Eclipse IDE 28
1.7.2 創建Scala項目 29
1.8 使用IntelliJ IDEA創建Scala項目 29
1.8.1 在IDEA中安裝Scala插件 30
1.8.2 創建Scala項目 31
1.9 動手練習 32
第2章 初識Spark 33
2.1 大數據開發的總體架構 33
2.2 什麼是Spark 34
2.3 Spark的主要組件 35
2.4 Spark運行架構 37
2.4.1 YARN集群架構 37
2.4.2 Spark Standalone架構 40
2.4.3 Spark On YARN架構 42
2.5 Spark集群搭建與測試 44
2.5.1 Spark Standalone模式的集群搭建 44
2.5.2 Spark On YARN模式的集群搭建 46
2.5.3 Spark HA的搭建 47
2.6 Spark應用程序的提交 51
2.7 Spark Shell的使用 53
2.8 動手練習 55
第3章 Spark RDD彈性分佈式數據集 56
3.1 什麼是RDD 56
3.2 創建RDD 57
3.2.1 從對象集合創建RDD 57
3.2.2 從外部存儲創建RDD 57
3.3 RDD的算子 58
3.3.1 轉化算子 58
3.3.2 行動算子 65
3.4 RDD的分區 66
3.4.1 分區數量 66
3.4.2 自定義分區器 74
3.5 RDD的依賴 79
3.5.1 窄依賴 79
3.5.2 寬依賴 79
3.5.3 Stage劃分 80
3.6 RDD的持久化 81
3.6.1 存儲級別 82
3.6.2 查看緩存 84
3.7 RDD的檢查點 86
3.8 共享變量 87
3.8.1 廣播變量 87
3.8.2 累加器 89
3.9 案例分析:Spark RDD實現單詞計數 90
3.9.1 新建Maven管理的Spark項目 90
3.9.2 編寫WordCount程序 92
3.9.3 提交程序到集群 94
3.10 案例分析:Spark RDD實現分組求TopN 96
3.11 案例分析:Spark RDD實現二次排序 100
3.12 案例分析:Spark RDD計算成績平均分 103
3.13 案例分析:Spark RDD倒排索引統計 每日新增用戶 105
3.14 案例分析:Spark RDD讀寫HBase 109
3.14.1 讀取HBase表數據 109
3.14.2 寫入HBase表數據 111
3.15 案例分析:Spark RDD數據傾斜問題的解決 119
3.15.1 數據傾斜的常用解決方法 120
3.15.2 使用隨機key進行雙重聚合 121
3.15.3 WebUI查看Spark歷史作業 124
3.16 動手練習 125
第4章 Spark內核源碼分析 127
4.1 Spark集群啟動原理分析 127
4.2 Spark應用程序提交原理分析 136
4.3 Spark作業工作原理分析 146
4.3.1 MapReduce的工作原理 147
4.3.2 Spark作業的工作原理 149
4.4 Spark檢查點原理分析 160
第5章 Spark SQL結構化數據處理引擎 164
5.1 什麼是Spark SQL 164
5.2 DataFrame和Dataset 165
5.3 Spark SQL的基本使用 166
5.4 Spark SQL數據源 168
5.4.1 基本操作 168
5.4.2 Parquet文件 172
5.4.3 JSON數據集 175
5.4.4 Hive表 176
5.4.5 JDBC 178
5.5 Spark SQL內置函數 179
5.5.1 自定義函數 181
5.5.2 自定義聚合函數 182
5.5.3 開窗函數 184
5.6 案例分析:使用Spark SQL實現單詞計數 186
5.7 案例分析:Spark SQL與Hive的整合 191
5.7.1 整合Hive的步驟 191
5.7.2 操作Hive的幾種方式 193
5.8 案例分析:Spark SQL讀寫MySQL 195
5.9 案例分析:Spark SQL每日UV統計 199
5.10 案例分析:Spark SQL熱點搜索詞統計 201
5.11 綜合案例:Spark SQL智慧交通數據分析 204
5.11.1 項目介紹 204
5.11.2 數據準備 205
5.11.3 統計正常卡口數量 208
5.11.4 統計車流量排名前3的卡口號 208
5.11.5 統計車輛高速通過的卡口Top5 209
5.11.6 統計每個卡口通過速度最快的前3輛車 212
5.11.7 車輛軌跡分析 213
5.12 動手練習 214
第6章 Kafka分佈式消息系統 215
6.1 什麼是Kafka 215
6.2 Kafka架構 216
6.3 主題與分區 217
6.4 分區副本 218
6.5 消費者組 220
6.6 數據存儲機制 221
6.7 集群環境搭建 223
6.8 命令行操作 225
6.8.1 創建主題 225
6.8.2 查詢主題 225
6.8.3 創建生產者 226
6.8.4 創建消費者 227
6.9 Java API操作 227
6.9.1 創建Java工程 227
6.9.2 創建生產者 228
6.9.3 創建消費者 230
6.9.4 運行程序 231
6.10 案例分析:Kafka生產者攔截器 233
6.11 動手練習 239
第7章 Spark Streaming實時流處理引擎 240
7.1 什麼是Spark Streaming 240
7.2 Spark Streaming工作原理 241
7.3 輸入DStream和Receiver 242
7.4 第一個Spark Streaming程序 243
7.5 Spark Streaming數據源 244
7.5.1 基本數據源 244
7.5.2 高級數據源 246
7.5.3 自定義數據源 247
7.6 DStream操作 250
7.6.1 無狀態操作 251
7.6.2 狀態操作 252
7.6.3 窗口操作 253
7.6.4 輸出操作 255
7.6.5 緩存及持久化 256
7.6.6 檢查點 257
7.7 案例分析:Spark Streaming按批次累加單詞數量 259
7.8 案例分析:Spark Streaming整合Kafka計算實時單詞數量 262
7.9 案例分析:Spark Streaming實時用戶日誌黑名單過濾 268
7.10 綜合案例:微博用戶行為分析 271
7.11 動手練習 273
第8章 Structured Streaming結構化流處理引擎 274
8.1 什麼是Structured Streaming 274
8.2 Structured Streaming單詞計數 275
8.3 Structured Streaming編程模型 277
8.4 Structured Streaming查詢輸出 279
8.5 Structured Streaming窗口操作 282
8.5.1 事件時間 282
8.5.2 窗口聚合單詞計數 283
8.5.3 延遲數據和水印 286
8.6 案例分析:Structured Streaming整合Kafka實現單詞計數 290
8.7 動手練習 293
第9章 GraphX圖計算引擎 294
9.1 什麼是GraphX 294
9.2 第一個GraphX程序 295
9.3 GraphX數據結構 298
9.4 GraphX圖操作 298
9.4.1 基本操作 298
9.4.2 屬性操作 301
9.4.3 結構操作 302
9.4.4 連接操作 304
9.4.5 聚合操作 307
9.5 案例分析:使用GraphX計算社交網絡中粉絲的平均年齡 308
9.6 動手練習 310



