數據湖倉 The Data Lakehouse: The Bedrock for Artificial Intelligence, Machine Learning, and Data Mesh
[美]比爾·恩門(Bill Inmon),[美]戴夫·拉皮恩(Dave Rapien),[美]瓦萊麗·巴特爾特(Valerie Bartelt)
- 出版商: 人民郵電
- 出版日期: 2024-07-01
- 售價: $299
- 貴賓價: 9.5 折 $284
- 語言: 簡體中文
- 頁數: 158
- 裝訂: 平裝
- ISBN: 7115638888
- ISBN-13: 9787115638885
-
相關分類:
大數據 Big-data
- 此書翻譯自: The Data Lakehouse: The Bedrock for Artificial Intelligence, Machine Learning, and Data Mesh
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
雲原生數據中臺:架構、方法論與實踐$594$564 -
領域驅動設計學習手冊 (Learning Domain-Driven Design)$580$458 -
Cloud Finops: Collaborative, Real-Time Cloud Value Decision Making (Paperback)$2,499$2,367 -
客戶留存數據分析與預測$768$730 -
資料科學 SQL 工作術 – 以 MySQL 為例與情境式 ChatGPT 輔助學習 (SQL for Data Scientists - A Beginner’s Guide for Building Datasets for Analysis)$630$498 -
Learning Github Actions: Automation and Integration of CI/CD with Github (Paperback)$2,138$2,025 -
資料治理技術手冊 (Data Governance: The Definitive Guide)$580$458 -
領域驅動設計 .Net 實踐$828$787 -
實戰領域驅動設計:高效軟體開發的正確觀點、應用策略與實作指引 (Implementing Domain-Driven Design)$1,280$998 -
數據血緣分析原理與實踐$594$564 -
Practical Lakehouse Architecture: Designing and Implementing Modern Data Platforms at Scale (Paperback)$2,356$2,232 -
機器學習的訓練資料 (Training Data for Machine Learning)$780$616 -
Apache Airflow Best Practices: A practical guide to orchestrating data workflow with Apache Airflow (Paperback)$1,700$1,615 -
資料工程基礎|規劃和建構強大、穩健的資料系統 (Fundamentals of Data Engineering)$980$774 -
Delta Lake: The Definitive Guide: Modern Data Lakehouse Architectures with Data Lakes$2,499$2,367 -
軟體開發者職涯應變手冊|穿越職涯迷霧的絕佳導航 (The Software Developer's Career Handbook: A Guide to Navigating the Unpredictable)$720$569 -
CI/CD Design Patterns: Design and implement CI/CD using proven design patterns (Paperback)$1,650$1,568 -
OLAP引擎底層原理與設計實踐$654$621 -
反 PUA 指南$299$284 -
AI 應用程式開發|活用 ChatGPT 與 LLM 技術開發實作, 2/e (Developing Apps with GPT-4 and ChatGPT: Build Intelligent Chatbots, Content Generators, and More, 2/e)$680$537 -
$828DAMA 數據管理知識體系指南 (原書第2版修訂版) -
$505GitHub Copilot 編程指南 -
深入淺出軟體架構 (Head First Software Architecture)$980$774 -
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$663 -
本地端 Ollama × LangChain × LangGraph × LangSmith 開發手冊:打造 RAG、Agent、SQL 應用$750$593
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
85折
$505GitHub Copilot 編程指南 -
VIP 95折
Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化$539$512 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
數據湖倉是一個現代化的開放式架構,擁有當今熱門的開源數據技術的廣度和靈活性。本書從初學者的角度出發,通過對數據湖倉重要概念的剖析,對數據湖倉的相關知識進行深入淺出的講解。全書共18章,對數據湖倉的基礎知識、數據工程、業務價值、數據集成等方面進行深入探討,同時展望數據架構的演化趨勢,使讀者能夠領會數據湖倉的精髓,最終輕松、全面地管理數據湖倉項目。
本書適合數據架構師、業務人員和系統開發人員,以及對數據管理、數據分析感興趣的讀者閱讀。
作者簡介
比爾·恩門
比爾·恩門被譽為“數據倉庫之父”,出版了60本書並被譯為多種語言,《電腦世界》將他評為電腦專業歷史上具影響力的十大人物之一。
戴夫·拉皮恩
戴夫·拉皮恩是辛辛那提大學林德納商學院的副教授,有著超過25年的教學經驗,還開發和管理了許多不同行業的大規模數據集成系統。
瓦萊麗·巴特爾特
瓦萊麗·巴特爾特在印第安納大學凱利商學院獲得信息系統博士學位和商業碩士學位,並且在電信學院獲得了沈浸式媒介環境碩士學位。
目錄大綱
第 1章 讓數據可信 1
1.1 做一個成熟的終端用戶 2
1.2 不斷攀升的可信目標 5
1.3 可信數據的要素 7
1.4 小結 8
第 2章 基礎數據 9
2.1 構建應用程序 9
2.2 以人工智能醫療為例 10
2.3 基礎數據的組成要素 12
2.4 小結 14
第3章 如何避免不良數據 15
3.1 輸入錯誤 16
3.2 鍵的問題 18
3.3 重復記錄 18
3.4 拼寫錯誤 19
3.5 兼容性 19
3.6 編制文檔 21
3.7 小結 22
第4章 不同類型的數據 24
4.1 數據量 24
4.2 數據的業務價值 25
4.3 數據的訪問概率 27
4.4 數據降級 29
4.5 基於大容量存儲器的數據歸檔機制 30
4.6 小結 30
第5章 數據抽象 31
5.1 結構化數據模型 32
5.2 本體和分類標準 34
5.3 模擬/物聯網數據的蒸餾算法 36
5.4 小結 37
第6章 結構化數據 39
6.1 業務交易生成的數據 40
6.2 結構化記錄 40
6.3 鍵 42
6.4 聯機事務處理 43
6.5 組織數據 45
6.6 小結 46
第7章 文本數據 48
7.1 文本數據的類型 48
7.2 使用文本數據時的語言障礙 50
7.3 多義詞 51
7.4 提取業務的含義 51
7.5 小結 54
第8章 模擬/物聯網數據 56
8.1 數據有用性的差異 57
8.2 攝像頭 58
8.3 人工審視 59
8.4 日期分隔 60
8.5 數據篩選 61
8.6 閾值方法 61
8.7 時間排序方法 62
8.8 小結 63
第9章 大容量存儲器與數據湖倉 65
9.1 大容量存儲器的優缺點 66
9.2 訪問概率 67
9.3 索引 70
9.4 元數據和大容量存儲器 71
9.5 小結 71
第 10章 數據架構與數據工程 73
10.1 兩個角色如何通力配合 74
10.2 角色與數據類型 75
10.3 小結 79
第 11章 業務價值 81
11.1 業務價值才是驅動力 81
11.2 一切都離不開錢 82
11.3 基礎數據 83
11.4 難以協調 84
11.5 領域 85
11.6 小結 86
第 12章 數據需要的層次 87
12.1 數據獲取 89
12.2 數據傳輸與存儲 90
12.3 數據轉換 91
12.4 數據標簽、整合與匯聚 92
12.5 數據分析與機器學習 93
12.6 小結 95
第 13章 數據湖倉中的數據集成 97
13.1 不同種類數據的集成 98
13.2 自動集成 98
13.3 ETL 99
13.4 文本ETL 101
13.5 數據蒸餾算法 103
13.6 小結 104
第 14章 分析 105
14.1 結構化數據分析 105
14.2 文本數據分析 107
14.3 模擬/物聯網數據分析 108
14.4 結構化數據和文本數據的結合 109
14.5 連接3個環境 111
14.6 執行分析 112
14.7 小結 113
第 15章 軟數據 114
15.1 電子表格數據 115
15.2 因特網數據 116
15.3 政府數據 117
15.4 小結 117
第 16章 描述性數據 119
16.1 數據模型 121
16.2 元數據 122
16.3 結構化數據轉換 123
16.4 結構化數據源 124
16.5 數據選擇標準 125
16.6 數據定義語言 125
16.7 數據編碼 126
16.8 數據關系 127
16.9 文本數據 128
16.10 本體 129
16.11 分類標準 131
16.12 關聯 132
16.13 上下文情境 133
16.14 文本數據源 134
16.15 模擬/物聯網數據 135
16.16 算法 136
16.17 閾值 136
16.18 時間排序 137
16.19 模擬/物聯網數據源 138
16.20 數據血緣 138
16.21 小結 139
第 17章 數據目錄 140
17.1 永久維護 141
17.2 開放 141
17.3 不同數據類型的內部結構 142
17.4 小結 143
第 18章 數據架構的演化 144
18.1 伊始 144
18.2 應用程序 145
18.3 磁帶文件 146
18.4 硬盤存儲 147
18.5 OLTP 148
18.6 個人電腦 149
18.7 4GL處理技術和數據抽取應用程序 150
18.8 數據倉庫 152
18.9 數據集市 153
18.10 因特網和物聯網數據 154
18.11 數據湖 155
18.12 數據湖倉 157
18.13 小結 158


