數據湖架構 Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump

恩門 (Bill Inmon)

買這商品的人也買了...

商品描述

隨著大數據的蓬勃發展,不少機構開始將源源不斷的數據流導入到一個叫“數據湖”的設備中去。
數據湖架構 是“數據倉庫”之父撰寫的全新著作,是幫助讀者認識數據湖架構,並把數據湖打造成公司資產的指導手冊。數據湖架構 共15章,分別涉及數據湖簡介、數據池據湖內部結構、數據池及其結構、各種類型的數據池等技術話題,目的在於講解如何構建有用的數據湖,以便數據科學家和數據分析師能夠解決商業挑戰並找出新的商業機會。
數據湖架構 適合數據管理者、學生、系統開發人員、架構師、程序員以及zui終用戶閱讀。

目錄大綱

第1章數據的湖泊1 
1.1大數據來了1 
1.2數據湖來了2 
1.3 “單向”的數據湖3 
1.4小結6 


第2章改造數據湖7 
2.1元數據7 
2.2整合圖譜8 
2.3數據科學家11 
2.4通用性12 
2.5小結13 


第3章數據湖內部14 
3.1模擬信號數據15 
3.2應用程序數據17 
3.3文本數據18 
3.4另一個視角20 
3.5小結21 


第4章數據池22 
4.1數據修整23 
4.2初始數據池23 
4.3模擬信號數據池24 
4.4應用程序數據池25 
4.5文本數據池25 
4.6將數據直接傳入數據池26 
4.7歸檔數據池26 
4.8小結27 


第5章數據池的通用結構28 
5.1數據池描述29 
5.2數據池目標30 
5.3數據池數據30 
5.4數據池元數據31 
5.5數據池元過程32 
5.6數據轉換標準33 
5.7小結34 


第6章模擬信號數據池35 
6.1模擬信號數據問題35 
6.2數據描述36 
6.3捕獲初始數據、轉換初始數據37 
6.4轉換/調整初始模擬信號數據38 
6.5數據切除40 
6.6聚類數據41 
6.7數據關係42 
6.8未來使用的可能性44 
6.9 異常值45 
6.10臨時性的特定分析47 
6.11小結47 


第7章應用程序數據池49 
7.1數據的基因49 
7.2數據描述50 
7.3標準數據庫格式51 
7.4數據的基本組織52 
7.5數據的整合52 
7.6數據模型53 
7.6整合的必要性54 
7.7從一個應用指向到下一個應用56 
7.8交並應用57 
7.9應用程序數據池內的數據子集58 
7.10小結58 


第8章文本數據池60 
8.1文本消歧62 
8.2傳入數據池的文本62 
8.3文本消歧的輸出63 
8.4固有的複雜性64 
8.5文本消歧的功能66 
8.6分類與本體66 
8.7文本與語境的價值68 
8.8對文本追根溯源69 
8.9消歧的機制69 
8.10分析數據庫70 
8.11將結果可視化71 
8.12小結73 


第9章數據池間的對比74 
9.1數據池的相似性74 
9.2數據池間的差異性75 
9.3數據最終狀態的關係型格式75 
9.4技術間差異76 
9.5數據池中數據的總預期容量76 
9.6數據池間的數據移動77 
9.7在多個數據池進行分析78 
9.8使用元數據來關聯不同 數據池內的數據78 
9.9假如…… 79 
9.10小結80 


第10章利用基礎架構82 
10.1 “單向”數據湖83 
10.2改造數據湖83 
10.3轉換技術84 
10.4一些分析問題84 
10.5查詢文本數據87 
10.6真實的分析88 
10.7小結89 


第11章搜索與分析90 
11.1供應商所散佈的困惑95 
11.2小結96 


第12章數據池中的業務價值97 
12.1模擬信號數據池中的業務價值97 
12.2應用程序數據池中的業務價值99 
12.3文本數據池中的業務價值100 
12.4記錄中的業務價值比例101 
12.5小結102 


第13章一些額外話題104 
13.1高層系統級別文檔104 
13.2詳細的數據池級別文檔105 
13.3什麼樣的數據會流入數據湖/數據池105 
13.4分析在何處發生107 
13.5數據的年齡110 
13.6數據的安全110 
13.7小結111 


第14章分析與整合工具112 
14.1可視化112 
14.2搜索與修正113 
14.3文本消歧114 
14.4統計分析114 
14.5經典的ETL處理115 
14.6小結116 


第15章歸檔數據池117 
15.1數據的移 標準118 
15.2結構性改動118 
15.3小結119 
術語表120 
參考資料124