Spark大數據分析實戰
張偉洋
買這商品的人也買了...
-
Cassandra 技術手冊, 2/e (Cassandra: The Definitive Guide, 2/e)$580$458 -
Spark SQL 親自動手做:大數據時代的資料庫處理 (熱銷版)$580$493 -
$354ASP.NET Core 微服務實戰 在雲環境中開發、測試和部署跨平臺服務 (Building Microservices with ASP.NET Core: Develop, Test, and Deploy Cross-Platform Services in the Cloud) -
$352架構師應該知道的 37件事 -
$505MySQL 高可用實踐 -
$594網絡攻防實戰研究:MySQL數據庫安全 -
MySQL 故障排除與效能調校完全攻略 (上)$600$300 -
MySQL 故障排除與效能調校完全攻略 (下)$680$340 -
30天與 Docker 做好朋友:跟鯨魚先生一同探索開發者的大平台(iT邦幫忙鐵人賽系列書)(修訂版)$600$420 -
DevOps: 企業級 CI/CD 實戰$534$507 -
$426Apache ShardingSphere權威指南
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
目錄大綱
目 錄
第1章 Spark開發準備——Scala基礎 1
1.1 什麼是SCALA 1
1.2 安裝SCALA 2
1.2.1 在Windows中安裝Scala 2
1.2.2 在CentOS 7中安裝Scala 3
1.3 SCALA基礎 4
1.3.1 變量聲明 4
1.3.2 數據類型 5
1.3.3 表達式 7
1.3.4 循 環 8
1.3.5 方法與函數 10
1.4 集 合 14
1.4.1 數 組 14
1.4.2 List 16
1.4.3 Map映射 17
1.4.4 元 組 19
1.4.5 Set 20
1.5 類和對象 21
1.5.1 類的定義 21
1.5.2 單例對象 22
1.5.3 伴生對象 22
1.5.4 get和set方法 23
1.5.5 構造器 25
1.6 抽象類和特質 28
1.6.1 抽象類 28
1.6.2 特 質 30
1.7 使用ECLIPSE創建SCALA項目 31
1.7.1 安裝Scala for Eclipse IDE 31
1.7.2 創建Scala項目 33
1.8 使用INTELLIJ IDEA創建SCALA項目 33
1.8.1 在IDEA中安裝Scala插件 34
1.8.2 創建Scala項目 37
第2章 初識Spark 40
2.1 大數據開發總體架構 40
2.2 什麼是SPARK 42
2.3 SPARK主要組件 43
2.4 SPARK運行時架構 45
2.4.1 YARN集群架構 45
2.4.2 Spark Standalone架構 49
2.4.3 Spark On YARN架構 50
2.5 SPARK集群搭建與測試 53
2.5.1 Spark Standalone模式的集群搭建 53
2.5.2 Spark On YARN模式的集群搭建 55
2.5.3 Spark HA的搭建 56
2.6 SPARK應用程序的提交 60
2.7 SPARK SHELL的使用 63
第3章 Spark RDD彈性分佈式數據集 66
3.1 什麼是RDD 66
3.2 創建RDD 67
3.2.1 從對象集合創建RDD 67
3.2.2 從外部存儲創建RDD 68
3.3 RDD的算子 69
3.3.1 轉化算子 69
3.3.2 行動算子 77
3.4 RDD的分區 78
3.4.1 分區數量 79
3.4.2 自定義分區器 88
3.5 RDD的依賴 93
3.5.1 窄依賴 94
3.5.2 寬依賴 94
3.5.3 Stage劃分 95
3.6 RDD的持久化 97
3.6.1 存儲級別 98
3.6.2 查看緩存 100
3.7 RDD的檢查點 102
3.8 共享變量 104
3.8.1 廣播變量 104
3.8.2 累加器 106
3.9 案例分析:SPARK RDD實現單詞計數 107
3.10 案例分析:SPARK RDD實現分組求TOPN 116
3.11 案例分析:SPARK RDD實現二次排序 120
3.12 案例分析:SPARK RDD計算成績平均分 124
3.13 案例分析:SPARK RDD倒排索引統計每日新增用戶 126
3.14 案例分析:SPARK RDD讀寫HBASE 130
3.14.1 讀取HBase表數據 131
3.14.2 寫入HBase表數據 134
3.15 案例分析:SPARK RDD數據傾斜問題解決 143
3.15.1 數據傾斜的常用解決方法 144
3.15.2 使用隨機key進行雙重聚合 145
3.15.3 WebUI查看Spark歷史作業 149
第4章 Spark內核源碼分析 151
4.1 SPARK集群啟動原理分析 151
4.2 SPARK應用程序提交原理分析 162
4.3 SPARK作業工作原理分析 175
4.3.1 MapReduce的工作原理 175
4.3.2 Spark作業工作的原理 177
4.4 SPARK檢查點原理分析 191
第5章 Spark SQL結構化數據處理引擎 196
5.1 什麼是SPARK SQL 196
5.2 DATAFRAME和DATASET 197
5.3 SPARK SQL的基本使用 198
5.4 SPARK SQL數據源 201
5.4.1 基本操作 201
5.4.2 Parquet文件 206
5.4.3 JSON數據集 209
5.4.4 Hive表 211
5.4.5 JDBC 213
5.5 SPARK SQL內置函數 214
5.5.1 自定義函數 216
5.5.2 自定義聚合函數 218
5.5.3 開窗函數 220
5.6 案例分析:使用SPARK SQL實現單詞計數 223
5.7 案例分析:SPARK SQL與HIVE整合 228
5.7.1 整合Hive的步驟 228
5.7.2 操作Hive的幾種方式 231
5.8 案例分析:SPARK SQL讀寫MYSQL 233
5.9 案例分析:SPARK SQL每日UV統計 238
5.10 案例分析:SPARK SQL熱點搜索詞統計 241
5.11 綜合案例:SPARK SQL智慧交通數據分析 244
5.11.1 項目介紹 244
5.11.2 數據準備 246
5.11.3 統計正常卡口數量 249
5.11.4 統計車流量排名前3的卡口號 249
5.11.5 統計車輛高速通過的卡口TOP5 250
5.11.6 統計每個卡口通過速度最快的前3輛車 254
5.11.7 車輛軌跡分析 255
第6章 Kafka分佈式消息系統 256
6.1 什麼是KAFKA 256
6.2 KAFKA架構 257
6.3 主題與分區 259
6.4 分區副本 260
6.5 消費者組 262
6.6 數據存儲機制 264
6.7 集群環境搭建 266
6.8 命令行操作 268
6.8.1 創建主題 268
6.8.2 查詢主題 269
6.8.3 創建生產者 269
6.8.4 創建消費者 270
6.9 JAVA API操作 271
6.9.1 創建Java工程 271
6.9.2 創建生產者 271
6.9.3 創建消費者 273
6.9.4 運行程序 275
6.10 案例分析:KAFKA生產者攔截器 277
第7章 Spark Streaming實時流處理引擎 285
7.1 什麼是SPARK STREAMING 285
7.2 SPARK STREAMING工作原理 286
7.3 輸入DSTREAM和RECEIVER 287
7.4 第一個SPARK STREAMING程序 288
7.5 SPARK STREAMING數據源 290
7.5.1 基本數據源 290
7.5.2 高級數據源 292
7.5.3 自定義數據源 293
7.6 DSTREAM操作 297
7.6.1 無狀態操作 297
7.6.2 狀態操作 299
7.6.3 窗口操作 300
7.6.4 輸出操作 302
7.6.5 緩存及持久化 303
7.6.6 檢查點 304
7.7 案例分析:SPARK STREAMING按批次累加單詞數量 306
7.8 案例分析: SPARK STREAMING整合KAFKA計算實時單詞數量 311
7.9 案例分析:SPARK STREAMING實時用戶日誌黑名單過濾 318
7.10 綜合案例:微博用戶行為分析 322
第8章 Structured Streaming結構化流處理引擎 325
8.1 什麼是STRUCTURED STREAMING 325
8.2 STRUCTURED STREAMING單詞計數 326
8.3 STRUCTURED STREAMING編程模型 328
8.4 STRUCTURED STREAMING查詢輸出 330
8.5 STRUCTURED STREAMING窗口操作 334
8.5.1 事件時間 334
8.5.2 窗口聚合單詞計數 335
8.5.3 延遲數據和水印 339
8.6 案例分析:STRUCTURED STREAMING整合KAFKA實現單詞計數 343
第9章 GraphX圖計算引擎 347
9.1 什麼是GRAPHX 347
9.2 第一個GRAPHX程序 348
9.3 GRAPHX數據結構 352
9.4 GRAPHX圖操作 352
9.4.1 基本操作 352
9.4.2 屬性操作 355
9.4.3 結構操作 357
9.4.4 連接操作 359
9.4.5 聚合操作 362
9.5 案例分析:使用GRAPHX計算社交網絡中粉絲的平均年齡 363



