實時數據處理和分析指南
[印度]希爾皮·薩克塞納(Shilpi Saxena) [印度]沙魯巴·古普塔( Saurabh Gupta)
- 出版商: 人民郵電
- 出版日期: 2020-05-01
- 定價: $474
- 售價: 7.9 折 $374
- 語言: 簡體中文
- 頁數: 280
- 裝訂: 平裝
- ISBN: 7115524866
- ISBN-13: 9787115524867
-
相關分類:
Storm、Spark
- 此書翻譯自: Practical Real-time Data Processing and Analytics
立即出貨
買這商品的人也買了...
-
$505圖解Spark:核心技術與案例實戰 -
AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications)$474$450 -
亞馬遜 AWS 雲基礎與實戰$299$284 -
遊戲數據分析實戰$474$450 -
$352關聯數據:萬維網上的結構化數據 -
大數據時代一定要會的 SQL 商業資料分析術$680$578 -
推薦系統實踐$419$398 -
分散式系統設計 (Designing Distributed Systems: Patterns and Paradigms for Scalable, Reliable Services)$480$379 -
$454Python 3 反爬蟲原理與繞過實戰 -
$528基於 Apache Flink 的流處理 (Stream Processing with Apache Flink: Fundamentals, Implementation, and Operation of Streaming Applications) -
$414Java 多線程編程實戰指南 (設計模式篇), 2/e -
$469TensorFlow 深度學習:數學原理與 Python 實戰進階 -
$534Python 程序員面試筆試寶典 -
$768AWS 高級網絡官方學習指南 (專項領域) (AWS Certified Advanced Networking Official Study Guide: Specialty Exam) -
$556精通 Spark 數據科學 -
$352數據中臺實戰:手把手教你搭建數據中臺 -
$352RPA (流程自動化機器人) 入門 — 手把手教你應用 UiPath 自動化工作 -
$568金融中的機器學習 -
$417財務報表分析與商業決策 -
$473Jupyter 金融應用 從入門到實踐 -
WebSecurity 網站滲透測試:Burp Suite 完全學習指南 (iT邦幫忙鐵人賽系列書)$600$510 -
人工智慧再進化:聯邦學習讓資料更安全穩固$880$695 -
比 VBA 更強的 RPA 來了!Power Automate Desktop 零程式打造辦公室流程自動化$560$476 -
AWS 職場實戰手冊 - 企業架站、安全防護、費用監控,用最省錢的方式紮實學會!$620$490 -
$458數據中臺:賦能企業實時經營與商業創新
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
85折
$505GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
本書主要介紹實時大數據計算領域的相關技巧和經驗,包括Flink、Spark和Storm等流處理框架技術。
全書從搭建開發環境開始,逐步實現流處理,循序漸進地引導讀者學習如何利用Rabbit MQ、
Kafka和NiFi以及Storm、Spark、Flink和Beam等組件協同應用來解決實際問題。
本書內容分為6個部分,分別是“導言——熟悉實時分析”“搭建基礎設施”“Storm實時計算”
“使用Spark實現實時計算”“使用Flink實現實時分析”以及“綜合應用”。
在閱讀本書之前,讀者應具備基本的Java和Scala編程基礎,還應熟悉Maven、Java和Eclipse的安裝和配置流程。
作者簡介
Shilpi Saxena
是IT領域的一位技術佈道者。她曾涉足多個領域(機器對機器空間、醫療保健、電信、人才招聘和製造業)。
在企業解決方案的構思和執行的所有方面,以及在軟件行業的產品和服務方面有超過12年的經驗。
她一直在大數據領域從事設計、管理和提供解決方案,並領導著一支高水平和分佈在各地的精英工程師團隊。
Saurabh Gupta
是一名軟件工程師,有數十年的IT行業從業經驗,目前從事處理和設計在生產中運行的實時和批處理項目的相關工作,
主要包括Impala、 Storm、NiFi、Kafka等技術以及在AWS上部署Docker,他還參與了各種物聯網項目,涉及電信、醫療保健、智能城市、智能汽車等領域。
目錄大綱
目錄:
第一部分導言—熟悉實時分析
第1章實時分析簡介2
1.1大數據的定義2
1.2大數據的基礎設施3
1.3實時分析—神話與現實6
1.4近實時解決方案—可用的架構9
1.4.1 NRT的Storm解決方案9
1.4.2 NRT的Spark解決方案10
1.5 Lambda架構—分析可能性11
1.6物聯網—想法與可能性13
1.7雲—考慮NRT和物聯網17
1.8小結18
第2章實時應用的基本組件19
2.1 NRT系統及其構建模塊19
2.1.1數據採集21
2.1.2流處理22
2.1.3分析層—服務終端用戶23
2.2 NRT的*級系統視圖25
2.3 NRT的技術視圖26
2.3.1事件生產者27
2.3.2數據收集27
2.3.3代理29
2.3.4轉換和處理31
2.3.5存儲32
2.4小結32
*二部分搭建基礎設施
第3章瞭解和跟蹤數據流34
3.1瞭解數據流34
3.2為數據提取安裝基礎設施35
3.2.1 Apache Kafka 35
3.2.2 Apache NiFi 36
3.2.3 Logstash 41
3.2.4 Fluentd 43
3.2.5 Flume 46
3.3將數據從源填到處理器—期望和註意事項48
3.4比較與選擇適合用例的*佳實踐49
3.5小試牛刀49
3.6小結51
第4章安裝和配置Storm 52
4.1 Storm概述52
4.2 Storm架構和組件53
4.2.1特徵54
4.2.2組件54
4.2.3流分組56
4.3安裝和配置Storm 57
4.3.1安裝Zookeeper 57
4.3.2配置Apache Storm 59
4.4在Storm上實時處理任務61
4.5小結67
第5章配置Apache Spark和Flink 68
5.1安裝並快速運行Spark 68
5.1.1源碼構建69
5.1.2下載Spark安裝包69
5.1.3運行示例70
5.2安裝並快速運行Flink 73
5.2.1使用源碼構建Flink 73
5.2.2下載Flink 74
5.2.3運行示例75
5.3安裝並快速運行Apache Beam 79
5.3.1 Beam模型79
5.3.2運行示例80
5.3.3 MinimalWordCount示例82
5.4 Apache Beam中的平衡85
5.5小結88
第三部分Storm實時計算
第6章集成Storm與數據源90
6.1 RabbitMQ有效的消息傳遞90
6.2 RabbitMQ交換器91
6.2.1直接交換器91
6.2.2 RabbitMQ安裝配置93
6.2.3 RabbitMQ的發布和訂閱95
6.3 RabbitMQ與Storm集成99
6.4 PubNub數據流發布者107
6.5將Storm和RMQ_PubNub傳感器數據拓撲串在一起111
6.6小結114
第7章從Storm到Sink 115
7.1安裝並配置Cassandra 115
7.1.1安裝Cassandra 116
7.1.2配置Cassandra 117
7.2 Storm和Cassandra拓撲118
7.3 Storm和IMDB集成處理維度數據120
7.4集成表示層與Storm 122
7.5小試牛刀134
7.6小結143
第8章Storm Trident 144
8.1狀態保持和Trident 144
8.1.1事務性spout 145
8.1.2不透明事務性spout 145
8.2基本Storm Trident拓撲146
8.3 Trident內部實現148
8.4 Trident操作149
8.4.1函數149
8.4.2 Map函數and FlatMap函數150
8.4. 3 peek函數151
8.4.4過濾器151
8.4.5窗口操作152
8.4.6聚合操作155
8.4.7分組操作158
8.4.8合併和組合操作159
8.5 DRPC 160
8.6小試牛刀161
8.7小結164
第四部分使用Spark實現實時計算
第9章運用Spark引擎166
9.1 Spark概述166
9.2 Spark的獨特優勢169
9.3 Spark用例172
9.4 Spark架構—引擎內部的運行模式174
9.5 Spark的語用概念176
9.6 Spark 2. x—數據框和數據集的出現178
9.7小結179
第10章運用Spark操作180
10.1 Spark—封裝和API 180
10.2 RDD語用探索182
10.2.1轉換185
10.2.2動作190
10.3共享變量—廣播變量和累加器192
10.3.1廣播變量192
10.3.2累加器195
10.4小結196
第11章Spark Streaming 197
11.1 Spark Streaming的概念197
11.2 Spark Streaming的簡介和體系結構198
11.3 Spark Streaming的封裝結構203
11.3.1 Spark Streaming API 203
11.3.2 Spark Streaming操作204
11.4連接Kafka和Spark Streaming 206
11.5小結208
第五部分使用Flink實現實時分析
第12章運用Apache Flink 210
12.1 Flink體系結構和執行引擎210
12.2 Flink的基本組件和進程213
12.3將源流集成到Flink 215
12.3.1和Apache Kafka集成215
12.3.2和RabbitMQ集成218
12.4 Flink處理和計算221
12.4.1 Datastream API 221
12.4.2 DataSet API 223
12.5 Flink持久化224
12.6 FlinkCEP 226
12.7 Pattern API 227
12.7.1檢測模式227
12.7.2模式選擇228
12.7.3示例228
12.8 Gelly 229
12.9小試牛刀231
12.10小結242
第六部分綜合應用
第13章用例研究244
13.1概述244
13.2數據建模245
13.3工具和框架246
13.4建立基礎設施247
13.5實現用例252
13.5.1構建數據模擬器252
13.5.2 Hazelcast加載器259
13.5.3構建Storm拓撲261
13.6運行用例272
13.7小結279


