雲數據平臺:設計、實現與管理 Designing Cloud Data Platforms
Danil Zburivsky ,Lynda Partner
- 出版商: 機械工業
- 出版日期: 2022-08-01
- 定價: $834
- 售價: 7.9 折 $659
- 語言: 簡體中文
- 頁數: 308
- 裝訂: 平裝
- ISBN: 7111712048
- ISBN-13: 9787111712046
-
相關分類:
Spark、Message Queue、Power BI
- 此書翻譯自: Designing Cloud Data Platforms
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
雲端運算的關鍵技術與應用實例$420$357 -
$299Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data (Paperback) -
機器學習 | 使用 Python 進行預測分析的基本技術$580$493 -
Data Science from Scratch|用 Python 學資料科學 (中文版)(Data Science from Scratch: First Principles with Python)$580$458 -
世界排名第一的搜索引擎開發 -- Elasticsearch + Lucene 用 java 實作$580$493 -
$474智能運維:從0搭建大規模分佈式 AIOps 系統 -
$474Elasticsearch 實戰 (Elasticsearch in Action) -
$534深入淺出 Prometheus:原理、應用、源碼與拓展詳解 -
$834OpenShift 在企業中的實踐:PaaS DevOps 微服務 -
$654雲計算那些事兒:從IaaS到PaaS進階 -
$454中臺戰略:中臺建設與數字商業 -
$422職業抉擇:產品和運營求職實戰攻略 -
華為數據之道$534$507 -
$357解決方案架構師修煉之道 -
測試架構師修煉之道:從測試工程師到測試架構師, 2/e$654$621 -
並行計算與高性能計算$834$792 -
$658混沌工程:通過可控故障實驗提升軟件系統可靠性 -
MLOps 工程實務:工具、技術與企業級應用$654$621 -
$710高級算法和數據結構 -
$517雲端原生落地:產品、架構與商業模式 -
JavaScript 設計模式學習手冊, 2/e (Learning JavaScript Design Patterns: A JavaScript and React Developer's Guide, 2/e)$580$458 -
$735UML 與模式應用 (原書第3版·典藏版) -
CKA/CKAD 應試教程:從 Docker 到 Kubernetes 完全攻略$594$564 -
MongoDB 資料建模和模式設計$534$507 -
內行人才知道的系統設計面試指南 第二輯 (System Design Interview – An Insider's Guide: Volume 2)$820$648
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書是為了幫助你設計一個既可伸縮又足夠靈活的雲數據平臺,以應對不可避免的技術變化。
你將瞭解雲數據平臺設計的核心組件,以及Spark和Kafka流等關鍵技術的作用。
你還將探索如何設置流程來管理基於雲的數據、確保數據的安全,並使用高級分析和BI工具對數據進行分析。
本書旨在幫助企業通過現代雲數據平臺使用所有數據的業務集成視圖,並利用先進的分析實踐來驅動預測和數據服務。
本書總結了不同的數據消費者如何使用平臺中的數據,
並討論了影響雲數據平臺項目成功的常見業務問題。
作者簡介
丹尼爾·茲布裏夫斯基(Danil Zburivsky),他的整個職業生涯都在為全球企業設計和支持大規模數據基礎設施。10多年前,他在IT服務公司Pythian開始了自己的職業生涯,為多家大型因特網公司管理開源數據庫系統。他是Hadoop的早期擁護者,在管理一個設計和實現大規模Hadoop分析基礎設施的團隊時,撰寫並出版了一本關於Hadoop集群部署最佳實踐的書。他預見到公有雲將對數據基礎設施產生的影響,因此是雲數據服務的早期採用者,並為全球數十家企業在三大公有雲平臺上構建和實現了基於雲的現代數據平臺。
目錄大綱
前言
致謝
引言
第1章數據平臺介紹1
1.1 從數據倉庫向數據平臺轉變背後的趨勢2
1.2 數據倉庫與數據的多樣性、規模和速度3
1.2.1 多樣性3
1.2.2 規模4
1.2.3 速度5
1.2.4 所有的V同時出現5
1.3 數據湖6
1.4 雲來了7
1.5 雲、數據湖、數據倉庫:雲數據平臺的出現9
1.6 雲數據平臺的構建塊9
1.6.1 攝取層10
1.6.2 存儲層10
1.6.3 處理層11
1.6.4 服務層13
1.7 雲數據平臺如何處理這三個V14
1.7.1 多樣性14
1.7.2 規模14
1.7.3 速度15
1.7.4 另外兩個V15
1.8 常見用例16
第2章為什麼是數據平臺而不僅僅是數據倉庫18
2.1 雲數據平臺和雲數據倉庫的實踐19
2.1.1 近距離觀察數據源20
2.1.2 雲數據倉庫—純架構示例21
2.1.3 雲數據平臺架構示例22
2.2 攝取數據24
2.2.1 將數據直接攝取到Azure Synapse24
2.2.2 將數據攝取到Azure數據平臺25
2.2.3 管理上遊數據源的變化26
2.3 處理數據28
2.3.1 處理數據倉庫中的數據29
2.3.2 處理數據平臺上的數據31
2.4 訪問數據32
2.5 雲成本方面的考慮34
2.6 練習答案36
第3章不斷壯大並利用三巨頭:Amazon、Microsoft Azure和Google37
3.1 雲數據平臺分層架構38
3.1.1 數據攝取層40
3.1.2 快存儲和慢存儲43
3.1.3 處理層45
3.1.4 技術元數據層47
3.1.5 服務層和數據消費者48
3.1.6 編排層和ETL覆蓋層52
3.2 數據平臺架構中層的重要性57
3.3 將雲數據平臺層映射到特定工具59
3.3.1 AWS61
3.3.2 Google Cloud65
3.3.3 Azure70
3.4 開源和商業替代方案73
3.4.1 批量數據攝取74
3.4.2 流數據攝取和實時分析74
3.4.3 編排層75
3.5 練習答案77
第4章將數據導入平臺78
4.1 數據庫、文件、API和流79
4.1.1 關係型數據庫80
4.1.2 文件81
4.1.3 通過API的SaaS數據81
4.1.4 流82
4.2 從關係型數據庫中攝取數據83
4.2.1 使用SQL接口從RDBMS攝取數據83
4.2.2 全表攝取85
4.2.3 增量表攝取90
4.2.4 變更數據捕獲94
4.2.5 CDC供應商概述98
4.2.6 數據類型轉換100
4.2.7 從NoSQL數據庫攝取數據102
4.2.8 為RDBMS或NoSQL攝取管道捕獲重要的元數據104
4.3 從文件中攝取數據107
4.3.1 跟蹤已攝取的文件109
4.3.2 捕獲文件攝取元數據112
4.4 從流中攝取數據113
4.4.1 批量攝取和流攝取的區別117
4.4.2 捕獲流管道元數據118
4.5 從SaaS應用程序攝取數據119
4.5.1 沒有標準的API設計方法121
4.5.2 沒有標準的方法來處理全數據導出和增量數據導出121
4.5.3 結果數據通常是高度嵌套的JSON122
4.6 將數據攝取到雲中需要考慮的網絡和安全問題122
4.7 練習答案125
第5章組織和處理數據126
5.1 在數據平臺中作為單獨的層進行處理127
5.2 數據處理階段129
5.3 組織你的雲存儲130
5.4 通用數據處理步驟137
5.4.1 文件格式轉換137
5.4.2 重複數據清除142
5.4.3 數據質量檢查147
5.5 可配置的管道149
5.6 練習答案152
第6章實時數據處理和分析153
6.1 實時攝取與實時處理154
6.2 實時數據處理用例156
6.2.1 零售用例:實時攝取156
6.2.2 線上遊戲用例:實時攝取和實時處理158
6.2.3 實時攝取與實時處理的總結160
6.3 什麼時候應該使用實時攝取或實時處理161
6.4 為實時使用組織數據163
6.4.1 對快存儲的解剖163
6.4.2 快存儲是如何擴展的166
6.4.3 在實時存儲中組織數據168
6.5 通用的實時數據轉換173
6.5.1 實時系統中數據重複的原因173
6.5.2 實時系統中的數據重複清除176
6.5.3 在實時管道中轉換消息格式181
6.5.4 實時數據質量檢查182
6.5.5 將批量數據與實時數據相結合183
6.6 用於實時數據處理的雲服務184
6.6.1 AWS實時處理服務185
6.6.2 Google Cloud實時處理服務186
6.6.3 Azure實時處理服務188
6.7 練習答案190
第7章元數據層架構191
7.1 元數據是什麼192
7.1.1 業務元數據192
7.1.2 數據平臺內部元數據或管道元數據193
7.2 利用管道元數據193
7.3 元數據模型197
7.4 元數據層實現選項207
7.4.1 元數據層作為配置文件的集合207
7.4.2 元數據數據庫210
7.4.3 元數據API212
7.5 現有的解決方案概述214
7.5.1 雲元數據服務214
7.5.2 開源元數據層實現216
7.6 練習答案220
第8章模式管理221
8.1 為什麼要進行模式管理222
8.1.1 傳統數據倉庫架構中的模式變化222
8.1.2 讀時模式方法223
8.2 模式管理方法225
8.2.1 模式即契約226
8.2.2 數據平臺中的模式管理228
8.2.3 監控模式變化234
8.3 模式註冊表實現235
8.3.1 Apache Avro模式236
8.3.2 現有的模式註冊表實現237
8.3.3 模式註冊表作為元數據層的一部分238
8.4 模式演化場景240
8.4.1 模式兼容性規則242
8.4.2 模式演化和數據轉換管道244
8.5 模式演化和數據倉庫247
8.6 練習答案252
第9章數據訪問和安全253
9.1 不同類型的數據消費者254
9.2 雲數據倉庫255
9.2.1 AWS Redshift256
9.2.2 Azure Synapse259
9.2.3 Go
