實戰大數據 (Hadoop + Spark + Flink) 從平臺構建到交互式數據分析 (離線/實時)
楊俊著
- 出版商: 機械工業
- 出版日期: 2021-06-01
- 定價: $594
- 售價: 8.5 折 $505
- 語言: 簡體中文
- 頁數: 236
- 裝訂: 平裝
- ISBN: 7111679660
- ISBN-13: 9787111679660
-
相關分類:
大數據 Big-data
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
圖解 HTTP$359$341 -
$1,663High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark (Paperback) -
從需求到設計:如何設計出客戶想要的產品 (十週年紀念版) (Exploring Requirements: Quality Before Design)$580$458 -
$469Spark 全棧數據分析 -
領域驅動設計:軟體核心複雜度的解決方法 (Domain-Driven Design: Tackling Complexity in the Heart of Software)$680$530 -
Spark 技術手冊|輕鬆寫意處理大數據 (Spark: The Definitive Guide|Big Data Processing Made Simple)$880$695 -
異形般強大的監控系統:Prometheus 掌控主機、VM、容器及 K8S$680$537 -
$403ClickHouse 原理解析與應用實踐 -
無卡無現金時代:網路支付業務規劃設計及實作$690$545 -
完全自學!Go 語言 (Golang) 實戰聖經 (The Go Workshop: Learn to write clean, efficient code and build high-performance applications with Go)$880$695 -
$228大數據技術與機器學習 Python 實戰 -
喬叔帶你上手 Elastic Stack:Elasticsearch 的最佳實踐與最佳化技巧(iT邦幫忙鐵人賽系列書)$680$530 -
$505大數據技術入門到商業實戰 — Hadoop + Spark + Flink 全解析 -
實戰資料流架構:用 Apache Flink 建立永續高性能服務$880$695 -
Spring REST API 開發與測試指南|使用 Swagger、HATEOAS、JUnit、Mockito、PowerMock、Spring Test$580$458 -
分佈式架構原理與實踐$779$740 -
用 ASP.NET Core 打造軟體積木和應用系統$400$316 -
$254大數據技術入門 — Hadoop + Spark -
$560圖解 Spark 大數據快速分析實戰 -
ASP.NET Core 6 實戰守則:超易懂的跨平台開發入門教學 (iT邦幫忙鐵人賽系列書)$600$468 -
$594Python + Spark 2.0 + Hadoop 機器學習與大數據實戰 -
從 Docker 動手邁入全新 DevOps 時代:最完整 Kubernetes 全書$1,280$1,011 -
Clean Architecture 實作篇:在整潔的架構上弄髒你的手 (Get Your Hands Dirty on Clean Architecture)$500$390 -
OCP:Java SE 11 Developer 認證指南 (下) -- API 剖析運用篇$820$541 -
你就是不寫測試才會沒時間:Kuma 的單元測試實戰 -- Java篇(iThome鐵人賽系列書)$650$507
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
《實戰大數據(Hadoop+Spark+Flink)——從平臺構建到交互式數據分析(離線/實時)》
詳細介紹了大數據工程師在實際工作中應該熟練掌握的大數據技術。
全書共8章,分別是大數據技術概述、搭建IDEA開發環境及Linux虛擬機、基於Hadoop構建大數據平臺、
基於HBase和Kafka構建海量數據存儲與交換系統、用戶行為離線分析—構建日誌採集和分析平臺、
基於Spark的用戶行為實時分析、基於Flink的用戶行為實時分析、用戶行為數據可視化。
本書以一個完整的大數據項目為主線,涵蓋Hadoop、Spark、Flink等主流大數據技術,
按照大數據工程師的項目開發流程,理論與實踐結合,逐步推進,使讀者在學習大數據核心技術的同時,
也能掌握開發大數據項目的完整流程,從而獲得大數據項目開發經驗。
《實戰大數據(Hadoop+Spark+Flink)——從平臺構建到交互式數據分析(離線/實時)》
既可以作為大數據工程師的必備開發手冊,也可以作為高校大數據及相關專業的教材或實驗手冊。
作者簡介
楊俊
大數據架構師。
大數據技術達人, Hadoop源碼級技術專家,擅長Hadoop、Spark、Flink等主流大數據生態技術。
具有近10年大數據開發經驗,參與過10餘個重量級大數據項目。
曾任廣電數據諮詢公司大數據高級架構師,負責大數據平臺架構設計與實施,並構建企業級數據倉庫。
暢銷書《Hadoop大數據技術基礎與應用》作者。
51CTO知名培訓講師,擁有20餘萬粉絲,具有豐富的大數據技術培訓經驗,
為數十家企業、院校開展過大數據技術課程培訓。
目錄大綱
前言
第1章 大數據技術概述1
1.1 什麼是大數據1
1.2 大數據ping臺架構1
1.2.1 數據獲取2
1.2.2 數據存儲2
1.2.3 數據處理3
1.2.4 交互式分析3
1.2.5 機器學習與數據挖掘4
1.2.6 資源管理4
1.3 大數據工程師的技能樹4
1.3.1 大數據主流開發語言5
1.3.2 大數據ping臺的構建5
1.3.3 大數據採集5
1.3.4 大數據存儲與交換5
1.3.5 大數據離線計算5
1.3.6 大數據實時計算6
1.4 大數據項目需求分析與設計6
1.4.1 項目需求分析6
1.4.2 系統架構設計7
1.4.3 離線和實時計算數據流程設計8
1.4.4 大數據ping臺規劃8
1.5 本章小結9
第2章 搭建IDEA開發環境及Linux虛擬機10
2.1 搭建IDEA開發環境10
2.1.1 JDK 的安裝與配置10
2.1.2 Maven 的安裝與配置12
2.1.3 IDEA 的安裝與配置13
2.1.4 使用IDEA構建Maven項目17
2.2 搭建Linux虛擬機19
2.2.1 安裝Linux系統19
2.2.2 配置Linux靜態IP19
2.2.3 Linux主機名和IP映射20
2.2.4 關閉Linux防火牆20
2.2.5 創建Linux用戶和用戶組20
2.2.6 Linux SSH免密登錄21
2.3 本章小結22
第3章 基於Hadoop構建大數據ping臺23
3.1 Zookeeper分佈式協調服務23
3.1.1 Zookeeper架構設計及原理23
3.1.2 Zookeeper集群安裝前的準備工作26
3.1.3 Zookeeper集群的安裝部署29
3.1.4 Zookeeper shell的操作32
3.2 HDFS分佈式文件系統34
3.2.1 HDFS架構設計及原理34
3.2.2 HDFS的高可用(HA)42
3.2.3 HDFS聯邦機制44
3.3 YARN資源管理系統44
3.3.1 YARN架構設計及原理45
3.3.2 MapReduce on YARN工作流程48
3.3.3 YARN的容錯性49
3.3.4 YARN的高可用(HA)49
3.3.5 YARN的調度器及使用50
3.4 Hadoop分佈式集群的構建53
3.4.1 HDFS分佈式集群的構建53
3.4.2 YARN分佈式集群的構建58
3.4.3 Hadoop集群運行測試61
3.4.4 Hadoop集群調優62
3.5 MapReduce分佈式計算框架64
3.5.1 MapReduce概述64
3.5.2 MapReduce編程模型67
3.5.3 MapReduce應用示例68
3.5.4 WordCount代碼實現70
3.6 本章小結72
第4章 基於HBase和Kafka構建海量數據存儲與交換系統73
4.1 構建HBase分佈式實時數據庫73
4.1.1 HBase概述73
4.1.2 HBase架構設計76
4.1.3 HBase分佈式集群的構建78
4.1.4 HBase性能調優82
4.1.5 HBase新聞業務表建模86
4.2 搭建Kafka分佈式消息系統86
4.2.1 Kafka概述86
4.2.2 Kafka架構設計87
4.2.3 Kafka分佈式集群的構建89
4.2.4 Kafka集群監控92
4.3 本章小結94
第5章 用戶行為離線分析——構建日誌採集和分析ping臺95
5.1 搭建Flume日誌採集系統95
5.1.1 Flume概述95
5.1.2 Flume架構設計96
5.1.3 Flume環境的搭建98
5.1.4 構建Flume集群100
5.2 使用Flume採集用戶行為數據102
5.2.1 Flume與Kafka集成102
5.2.2 Flume與HBase集成104
5.2.3 Flume與Kafka、HBase集成109
5.3 基於Hive的離線大數據分析112
5.3.1 Hive概述112
5.3.2 Hive架構設計112
5.3.3 Hive的安裝部署117
5.3.4 Hive在大數據倉庫中的應用120
5.3.5 Hive與HBase集成121
5.4 基於Hive 的用戶行為數據離線分析122
5.4.1 離線項目架構設計122
5.4.2 用戶行為離線分析123
5.5 本章小結126
第6章 基於Spark的用戶行為實時分析127
6.1 Spark快速入門127
6.1.1 Spark概述127
6.1.2 Spark的#簡安裝128
6.1.3 Spark實現WordCount129
6.2 Spark Core的核心功能131
6.2.1 Spark架構的原理131
6.2.2 彈性分佈式數據集RDD132
6.2.3 Spark 算子133
6.2.4 Pair RDD及算子135
6.3 Spark分佈式集群的構建135
6.3.1 Spark的運行模式135
6.3.2 Standalone模式集群的構建136
6.3.3 Spark on YARN模式集群的構建139
6.4 基於Spark Streaming的新聞項目實時分析140
6.4.1 Spark Streaming概述140
6.4.2 Spark Streaming的運行原理141
6.4.3 Spark Streaming編程模型142
6.4.4 Spark Streaming實時分析用戶行為144
6.5 基於Spark SQL的新聞項目離線分析157
6.5.1 Spark SQL架構的原理157
6.5.2 Spark SQL與Hive、MySQL、HBase集成158
6.5.3 Spark SQL用戶行為離線分析162
6.6 基於Spark Structured Streaming 的新聞項目實時分析167
6.6.1 Structured Streaming概述167
6.6.2 Structured Streaming編程模型168
6.6.3 基於Structured Streaming的用戶行為實時分析168
6.7 本章小結173
第7章 基於Flink的用戶行為實時分析174
7.1 Flink快速入門174
7.1.1 Flink概述174
7.1.2 Flink的#簡安裝176
7.1.3 Flink實現WordCount177
7.2 Flink分佈式集群的構建181
7.2.1 Flink的運行模式181
7.2.2 Flink Standalone模式集群的構建181
7.2.3 Flink on YARN模式集群的構建184
7.3 基於Flink DataStream的新聞項目實時分析187
7.3.1 Flink DataStream概述187
7.3.2 Flink DataStream 編程模型188
7.3.3 Flink DataStream用戶行為實時
