實時數據處理和分析指南
[印度]希爾皮·薩克塞納(Shilpi Saxena) [印度]沙魯巴·古普塔( Saurabh Gupta)
- 出版商: 人民郵電
- 出版日期: 2020-05-01
- 定價: $474
- 售價: 7.9 折 $374
- 語言: 簡體中文
- 頁數: 280
- 裝訂: 平裝
- ISBN: 7115524866
- ISBN-13: 9787115524867
-
相關分類:
Storm、Spark
- 此書翻譯自: Practical Real-time Data Processing and Analytics
立即出貨
買這商品的人也買了...
-
$505圖解Spark:核心技術與案例實戰 -
$403AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications) -
$254亞馬遜 AWS 雲基礎與實戰 -
遊戲數據分析實戰$474$450 -
$352關聯數據:萬維網上的結構化數據 -
大數據時代一定要會的 SQL 商業資料分析術$680$578 -
推薦系統實踐$419$398 -
分散式系統設計 (Designing Distributed Systems: Patterns and Paradigms for Scalable, Reliable Services)$480$379 -
$454Python 3 反爬蟲原理與繞過實戰 -
$528基於 Apache Flink 的流處理 (Stream Processing with Apache Flink: Fundamentals, Implementation, and Operation of Streaming Applications) -
$414Java 多線程編程實戰指南 (設計模式篇), 2/e -
$469TensorFlow 深度學習:數學原理與 Python 實戰進階 -
$534Python 程序員面試筆試寶典 -
$768AWS 高級網絡官方學習指南 (專項領域) (AWS Certified Advanced Networking Official Study Guide: Specialty Exam) -
$556精通 Spark 數據科學 -
$352數據中臺實戰:手把手教你搭建數據中臺 -
$352RPA (流程自動化機器人) 入門 — 手把手教你應用 UiPath 自動化工作 -
$568金融中的機器學習 -
$417財務報表分析與商業決策 -
$473Jupyter 金融應用 從入門到實踐 -
WebSecurity 網站滲透測試:Burp Suite 完全學習指南 (iT邦幫忙鐵人賽系列書)$600$468 -
人工智慧再進化:聯邦學習讓資料更安全穩固$880$695 -
比 VBA 更強的 RPA 來了!Power Automate Desktop 零程式打造辦公室流程自動化$560$476 -
AWS 職場實戰手冊 - 企業架站、安全防護、費用監控,用最省錢的方式紮實學會!$620$527 -
$458數據中臺:賦能企業實時經營與商業創新
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書主要介紹實時大數據計算領域的相關技巧和經驗,包括Flink、Spark和Storm等流處理框架技術。
全書從搭建開發環境開始,逐步實現流處理,循序漸進地引導讀者學習如何利用Rabbit MQ、
Kafka和NiFi以及Storm、Spark、Flink和Beam等組件協同應用來解決實際問題。
本書內容分為6個部分,分別是“導言——熟悉實時分析”“搭建基礎設施”“Storm實時計算”
“使用Spark實現實時計算”“使用Flink實現實時分析”以及“綜合應用”。
在閱讀本書之前,讀者應具備基本的Java和Scala編程基礎,還應熟悉Maven、Java和Eclipse的安裝和配置流程。
作者簡介
Shilpi Saxena
是IT領域的一位技術佈道者。她曾涉足多個領域(機器對機器空間、醫療保健、電信、人才招聘和製造業)。
在企業解決方案的構思和執行的所有方面,以及在軟件行業的產品和服務方面有超過12年的經驗。
她一直在大數據領域從事設計、管理和提供解決方案,並領導著一支高水平和分佈在各地的精英工程師團隊。
Saurabh Gupta
是一名軟件工程師,有數十年的IT行業從業經驗,目前從事處理和設計在生產中運行的實時和批處理項目的相關工作,
主要包括Impala、 Storm、NiFi、Kafka等技術以及在AWS上部署Docker,他還參與了各種物聯網項目,涉及電信、醫療保健、智能城市、智能汽車等領域。
目錄大綱
目錄:
第一部分導言—熟悉實時分析
第1章實時分析簡介2
1.1大數據的定義2
1.2大數據的基礎設施3
1.3實時分析—神話與現實6
1.4近實時解決方案—可用的架構9
1.4.1 NRT的Storm解決方案9
1.4.2 NRT的Spark解決方案10
1.5 Lambda架構—分析可能性11
1.6物聯網—想法與可能性13
1.7雲—考慮NRT和物聯網17
1.8小結18
第2章實時應用的基本組件19
2.1 NRT系統及其構建模塊19
2.1.1數據採集21
2.1.2流處理22
2.1.3分析層—服務終端用戶23
2.2 NRT的*級系統視圖25
2.3 NRT的技術視圖26
2.3.1事件生產者27
2.3.2數據收集27
2.3.3代理29
2.3.4轉換和處理31
2.3.5存儲32
2.4小結32
*二部分搭建基礎設施
第3章瞭解和跟蹤數據流34
3.1瞭解數據流34
3.2為數據提取安裝基礎設施35
3.2.1 Apache Kafka 35
3.2.2 Apache NiFi 36
3.2.3 Logstash 41
3.2.4 Fluentd 43
3.2.5 Flume 46
3.3將數據從源填到處理器—期望和註意事項48
3.4比較與選擇適合用例的*佳實踐49
3.5小試牛刀49
3.6小結51
第4章安裝和配置Storm 52
4.1 Storm概述52
4.2 Storm架構和組件53
4.2.1特徵54
4.2.2組件54
4.2.3流分組56
4.3安裝和配置Storm 57
4.3.1安裝Zookeeper 57
4.3.2配置Apache Storm 59
4.4在Storm上實時處理任務61
4.5小結67
第5章配置Apache Spark和Flink 68
5.1安裝並快速運行Spark 68
5.1.1源碼構建69
5.1.2下載Spark安裝包69
5.1.3運行示例70
5.2安裝並快速運行Flink 73
5.2.1使用源碼構建Flink 73
5.2.2下載Flink 74
5.2.3運行示例75
5.3安裝並快速運行Apache Beam 79
5.3.1 Beam模型79
5.3.2運行示例80
5.3.3 MinimalWordCount示例82
5.4 Apache Beam中的平衡85
5.5小結88
第三部分Storm實時計算
第6章集成Storm與數據源90
6.1 RabbitMQ有效的消息傳遞90
6.2 RabbitMQ交換器91
6.2.1直接交換器91
6.2.2 RabbitMQ安裝配置93
6.2.3 RabbitMQ的發布和訂閱95
6.3 RabbitMQ與Storm集成99
6.4 PubNub數據流發布者107
6.5將Storm和RMQ_PubNub傳感器數據拓撲串在一起111
6.6小結114
第7章從Storm到Sink 115
7.1安裝並配置Cassandra 115
7.1.1安裝Cassandra 116
7.1.2配置Cassandra 117
7.2 Storm和Cassandra拓撲118
7.3 Storm和IMDB集成處理維度數據120
7.4集成表示層與Storm 122
7.5小試牛刀134
7.6小結143
第8章Storm Trident 144
8.1狀態保持和Trident 144
8.1.1事務性spout 145
8.1.2不透明事務性spout 145
8.2基本Storm Trident拓撲146
8.3 Trident內部實現148
8.4 Trident操作149
8.4.1函數149
8.4.2 Map函數and FlatMap函數150
8.4. 3 peek函數151
8.4.4過濾器151
8.4.5窗口操作152
8.4.6聚合操作155
8.4.7分組操作158
8.4.8合併和組合操作159
8.5 DRPC 160
8.6小試牛刀161
8.7小結164
第四部分使用Spark實現實時計算
第9章運用Spark引擎166
9.1 Spark概述166
9.2 Spark的獨特優勢169
9.3 Spark用例172
9.4 Spark架構—引擎內部的運行模式174
9.5 Spark的語用概念176
9.6 Spark 2. x—數據框和數據集的出現178
9.7小結179
第10章運用Spark操作180
10.1 Spark—封裝和API 180
10.2 RDD語用探索182
10.2.1轉換185
10.2.2動作190
10.3共享變量—廣播變量和累加器192
10.3.1廣播變量192
10.3.2累加器195
10.4小結196
第11章Spark Streaming 197
11.1 Spark Streaming的概念197
11.2 Spark Streaming的簡介和體系結構198
11.3 Spark Streaming的封裝結構203
11.3.1 Spark Streaming API 203
11.3.2 Spark Streaming操作204
11.4連接Kafka和Spark Streaming 206
11.5小結208
第五部分使用Flink實現實時分析
第12章運用Apache Flink 210
12.1 Flink體系結構和執行引擎210
12.2 Flink的基本組件和進程213
12.3將源流集成到Flink 215
12.3.1和Apache Kafka集成215
12.3.2和RabbitMQ集成218
12.4 Flink處理和計算221
12.4.1 Datastream API 221
12.4.2 DataSet API 223
12.5 Flink持久化224
12.6 FlinkCEP 226
12.7 Pattern API 227
12.7.1檢測模式227
12.7.2模式選擇228
12.7.3示例228
12.8 Gelly 229
12.9小試牛刀231
12.10小結242
第六部分綜合應用
第13章用例研究244
13.1概述244
13.2數據建模245
13.3工具和框架246
13.4建立基礎設施247
13.5實現用例252
13.5.1構建數據模擬器252
13.5.2 Hazelcast加載器259
13.5.3構建Storm拓撲261
13.6運行用例272
13.7小結279


