數據架構 : 數據科學家的第一本書, 2/e (Data Architecture : A Primer for the Data Scientist, 2/e)

W. H. Inmon,Daniel Linstedt,Mary Levins

買這商品的人也買了...

商品描述

近年來,大數據和數據科學備受關註,數據架構已經成為企業決策制定過程中不可或缺的組成部分。本書由數據和商業智能領域的三位引領者撰寫,幫助讀者從宏觀視角瞭解數據架構的基本概念和原則,是數據科學家、分析師和管理者的必備參考讀物。

本書特色
全面講解數據架構的理論知識,添加了文本管理和分析等來自不同行業的實例,幫助讀者從整體上清晰地認識數據。
創新性地提出終端狀態架構的概念,把握數據收集、治理、提取、分析等不同階段的核心技術,從而將大數據技術融入現有的信息基礎設施或數據倉庫系統。
新增關於可視化和大數據的章節,涵蓋對數據的商業價值和數據管理等的綜合介紹,為大數據技術的未來發展提供新的思路。

作者簡介

W. H. 因蒙(W. H. Inmon) “數據倉庫之父”,大數據分析、數據倉庫和商業智能領域知名作家。 
2007年,他被Computerworld雜誌評為計算機行業過去40年十大IT人物。


丹尼爾·林斯泰特(Daniel Linstedt) “Data Vault之父”。
他是Empowered Holdings公司的創始人及CEO,致力於為世界各地的商業和政府組織提供Data Vault、大數據、非結構化信息管理、敏捷方法等方面的諮詢和服務。

目錄大綱

獻詞
譯者序
第1章 數據架構與數據類型1
1.1 數據架構簡介1
1.1.1 細分數據1
1.1.2 重復性和非重復性非結構化數據2
1.1.3 數據的“分水嶺”2
1.1.4 文本數據和非文本數據3
1.1.5 各種形式的數據3
1.1.6 商業價值4
1.2 數據基礎設施4
1.2.1 重復性數據的兩種類型4
1.2.2 重復性結構化數據5
1.2.3 重復性大數據6
1.2.4 兩種基礎設施6
1.2.5 基礎設施的優化7
1.2.6 比較兩種基礎設施8
1.3 分水嶺8
1.3.1 企業數據的分類8
1.3.2 什麽是分水嶺9
1.3.3 重復性非結構化數據9
1.3.4 非重復性非結構化數據10
1.3.5 不同的環境12
1.4 企業數據統計圖13
1.5 企業數據分析16
1.6 數據的生命周期:理解時間線上的數據19
1.7 數據簡史23
1.7.1 紙帶和打孔卡23
1.7.2 磁帶23
1.7.3 磁盤存儲器24
1.7.4 數據庫管理系統24
1.7.5 耦合處理器24
1.7.6 在線事務處理24
1.7.7 數據倉庫25
1.7.8 並行數據管理25
1.7.9 數據保險箱25
1.7.10 大數據25
1.7.11 分水嶺26
第2章 終端狀態架構——“世界地圖”27
2.1 架構組件27
2.2 終端狀態架構中不同類型的數據28
2.3 通過模型塑造數據29
2.4 數據倉庫在哪裡30
2.5 不同類型的問題在終端狀態架構中得到不同的回答31
2.6 數據湖中的數據31
2.7 終端狀態架構中的元數據32
2.8 網絡化元數據32
2.9 演變的經驗33
2.10 數據湖架構34
第3章 終端狀態架構中的轉換35
3.1 冗餘數據35
3.2 轉換35
3.3 定製數據36
3.4 轉換文本37
3.5 轉換應用數據37
3.6 將數據轉換為定製狀態38
3.7 將數據轉換為批量存儲38
3.8 自動生成數據的轉換39
3.9 轉換批量數據39
3.10 轉換和冗餘40
第4章 大數據41
4.1 大數據簡史41
4.1.1 類比—占領制高點41
4.1.2 占領制高點42
4.1.3 IBM 360的標準化42
4.1.4 在線事務處理42
4.1.5 Teradata和MPP處理43
4.1.6 Hadoop和大數據43
4.1.7 IBM和Hadoop43
4.1.8 堅守制高點43
4.2 何謂大數據43
4.2.1 另一種定義44
4.2.2 大體量44
4.2.3 廉價存儲44
4.2.4 羅馬人口普查方法44
4.2.5 非結構化數據45
4.2.6 大數據中的數據46
4.2.7 重復性數據的語境46
4.2.8 非重復性數據47
4.2.9 非重復性數據的語境47
4.3 並行處理49
4.4 非結構化數據53
4.4.1 無處不在的文本信息53
4.4.2 基於結構化數據的決策53
4.4.3 商業價值建議54
4.4.4 重復性和非重復性非結構化信息54
4.4.5 易於分析55
4.4.6 語境化56
4.4.7 一些語境化方法56
4.4.8 Map Reduce57
4.4.9 手工分析58
4.5 將重復性非結構化數據語境化58
4.5.1 解析重復性非結構化數據59
4.5.2 重鑄輸出數據59
4.6 文本消歧59
4.6.1 從敘述性數據庫到分析性數據庫60
4.6.2 文本消歧的輸入60
4.6.3 映射61
4.6.4 輸入/輸出61
4.6.5 文檔分解和命名值處理62
4.6.6 文檔預處理63
4.6.7 電子郵件63
4.6.8 電子表格64
4.6.9 報告反編譯器64
4.7 分類法65
4.7.1 數據模型和分類法66
4.7.2 分類法的適用性67
4.7.3 什麽是分類法67
4.7.4 多種語言的分類法68
4.7.5 商業分類法還是私人分類法68
4.7.6 分類法和文本消歧的動態過程68
4.7.7 分類法和文本消歧的分離技術68
4.7.8 分類法的不同類型69
4.7.9 分類法—隨著時間的推移進行維護70
第5章 孤島式應用環境71
5.1 孤島式應用的挑戰71
5.2 構建孤島式應用73
5.3 孤島式應用是什麽樣的74
5.4 當前值數據74
5.5 最低限度的歷史數據75
5.6 高可用性76
5.7 孤島式應用之間的重疊76
5.8 凍結業務需求77
5.9 拆除孤島式應用77
第6章 數據保險箱78
6.1 數據保險箱2.0簡介78
6.1.1 數據保險箱的起源和背景78
6.1.2 什麽是數據保險箱2.0建模80
6.1.3 如何定義數據保險箱2.0方法論81
6.1.4 為什麽需要數據保險箱2.0架構81
6.1.5 數據保險箱2.0的實施範圍81
6.1.6 數據保險箱2.0的商業利益81
6.1.7 數據保險箱1.0簡介82
6.2 數據保險箱建模簡介83
6.2.1 數據保險箱模型的概念83
6.2.2 數據保險箱模型的定義83
6.2.3 數據保險箱模型的組成部分83
6.2.4 業務鍵為何如此重要84
6.2.5 數據保險箱和數據倉庫的關系85
6.2.6 如何轉換到數據保險箱建模85
6.2.7 為什麽要對暫存區的數據進行限制86
6.2.8 數據保險箱模型的基本規則86
6.2.9 為什麽需要很多鏈接結構87
6.2.10 數據保險箱2.0的主鍵選項87
6.3 數據保險箱架構簡介93
6.3.1 什麽是數據保險箱2.0架構93
6.3.2 如何將NoSQL融入架構93
6.3.3 數據保險箱2.0架構的目標94
6.3.4 數據保險箱2.0模型的目標94
6.3.5 硬業務規則和軟業務規則95
6.3.6 如何將管理型自助BI融入架構95
6.4 數據保險箱方法論簡介96
6.4.1 數據保險箱2.0方法論概述96
6.4.2 CMMI對方法論的貢獻96
6.4.3 如果CMMI這麽好,為什麽還要關心敏捷性98
6.4.4 如果有CMMI和敏捷就足夠了,為什麽要加入PMP和SDLC98
6.4.5 六西格瑪對方法論的貢獻99
6.4.6 TQM與方法論的關系100
6.5 數據保險箱實施簡介101
6.5.1 實施概述101
6.5.2 模式的重要性101
6.5.3 為什麽重新設計會因大數據而發生102
6.5.4 為什麽需要虛擬數據集市103
6.5.5 什麽是管理型自助BI103
第7章 運營數據105
7.1 運營環境簡史105
7.1.1 電腦的商業用途105
7.1.2 首個應用105
7.1.3 愛德華·尤登和結構化革命106
7.1.4 系統開發生命周期106
7.1.5 磁盤技術107
7.1.6 關系數據庫管理系統107
7.1.7 響應時間和可用性107
7.1.8 今天的企業計算108
7.2 標準工作單元109
7.2.1 響應時間的要素109
7.2.2 沙漏類比109
7.2.3 賽車場類比110
7.2.4 你的車輛與前面的車輛速度一樣快111
7.2.5 標準工作單元的要求111
7.2.6 服務水平協議 111
7.3 結構化環境的數據建模111
7.3.1 路線圖的目的111
7.3.2 只為顆粒數據建模112
7.3.3 實體關系圖112
7.3.4 數據項集113
7.3.5 物理數據庫設計113
7.3.6 數據模型不同層次的關聯性114
7.3.7 連接示例115
7.3.8 通用數據模型115
7.3.9 運營數據模型和數據倉庫數據模型115
第8章 數據架構116
8.1 數據架構簡史116
8.2 大數據和系統接口123
8.2.1 大數據和系統接口概述123
8.2.2 重復性原始大數據和系統接口123
8.2.3 基於異常的數據124
8.2.4 非重復性原始大數據和系統接口125
8.2.5 進入現有系統環境125
8.2.6 語境豐富的大數據環境126
8.2.7 聯合分析結構化數據和非結構化數據127
8.3 數據倉庫和操作環境接口127
8.3.1 運營環境和數據倉庫接口127
8.3.2 經典ETL接口128
8.3.3 ODS和ETL接口128
8.3.4 暫存區129
8.3.5 變動數據捕獲129
8.3.6 內嵌轉換130
8.3.7 ELT處理130
8.4 數據架構:高層視角131
8.4.1 高層視角131
8.4.2 冗餘132
8.4.3 記錄系統132
8.4.4 問題的不同類型133
8.4.5 不同的社區134
第9章 重復性分析135
9.1 重復性分析的基礎知識135
9.1.1 不同的分析類型135
9.1.2 尋找模式136
9.1.3 啟發式處理137
9.1.4 凍結數據137
9.1.5 沙箱138
9.1.6 “正常”概況139
9.1.7 提煉和過濾139
9.1.8 數據子集140
9.1.9 樣本的偏差141
9.1.10 過濾數據141
9.1.11 重復性數據及其語境142
9.1.12 將重復記錄鏈接起來143
9.1.13 日誌磁帶記錄143
9.1.14 分析數據點144
9.1.15 離群值144
9.1.16 隨時間推移的數據145
9.2 分析重復性數據146
9.2.1 日誌數據147
9.2.2 數據的主動索引和被動索引148
9.2.3 匯總數據和詳細數據149
9.2.4 大數據中的元數據150
9.2.5 鏈接數據151
9.3 重復性分析的進階知識151
9.3.1 內部數據和外部數據151
9.3.2 通用標識符152
9.3.3 安全性153
9.3.4 過濾和提煉154
9.3.5 歸檔結果155
9.3.6 衡量指標156
第10章 非重復性數據157
10.1 非重復性數據的基礎知識157
10.1.1 內嵌式語境化159
10.1.2 分類法和本體論處理160
10.1.3 自定義變量160
10.1.4 同形異義詞消解161
10.1.5 縮略詞消解162
10.1.6 否定分析163
10.1.7 數值標記163
10.1.8 日期標記164
10.1.9 日期標準化164
10.1.10 列表處理164
10.1.11 關聯詞處理165
10.1.12 停用詞處理165
10.1.13 詞乾提取165
10.1.14 文檔元數據166
10.1.15 文檔分類166
10.1.16 鄰近度分析167
10.1.17 文本ETL中的函數序列化167
10.1.18 內部引用完整性167
10.1.19 預處理和後處理168
10.2 映射169
10.3 分析非重復性數據170
10.3.1 呼叫中心信息171
10.3.2 病歷177
第11章 運營分析:響應時間181
11.1 事務響應時間182
第12章 運營分析186
12.1 看待數據的不同視角189
12.2 數據集市189
12.3 運營數據存儲190
第13章 個人分析193
第14章 終端狀態架構中的數據模型196
14.1 不同的數據模型196
14.2 功能分解和數據流圖197
14.3 企業數據模型198
14.4 星形連接和維度數據模型200
14.5 分類法和本體論201
14.6 數據的選擇性細分203
14.7 主動數據模型和被動數據模型204
第15章 記錄系統206
15.1 終端用戶的認知周期206
15.2 記錄系統簡介207
15.3 終端狀態架構中的記錄系統207
15.4 老化在記錄系統中的作用208
15.5 簡單示例208
15.6 記錄系統中的數據流209
15.7 記錄系統以外的其他數據209
15.8 記錄系統中的數據是否更新209
15.9 記錄系統中的詳細數據和匯總數據210
15.10 審計數據和記錄系統211
15.11 文本和記錄系統211
第16章 商業價值和終端狀態架構213
16.1 終端狀態架構的演變213
16.2 何謂商業價值214
16.3 戰術性商業價值和戰略性商業價值214
16.4 數據量和商業價值的關系215
16.5 “百萬分之一”綜合徵215
16.6 商業價值發生在哪裡216
16.7 隨時間推移的數據相關性216
16.8 在哪裡做出戰術決策217
第17章 管理文本數據218
17.1 文本的挑戰218
17.2 語境的挑戰220
17.3 文本ETL的處理組件222
17.4 二次分析222
17.5 可視化223
17.6 基於數據和結構化數據的文本合並223
第18章 數據可視化簡介224
18.1 數據可視化概覽224
18.2 目的和背景225
18.3 可視化—一門科學和一門藝術225
18.4 可視化框架226
18.5 步驟1:定義226
18.6 步驟2:數據227
18.6.1 數據類型227
18.6.2 數據源227
18.6.3 數據組織228
18.6.4 數據質量229
18.7 步驟3:設計229
18.7.1 可視化的形式229
18.8 步驟4:發布233
18.8.1 目的:告知或教育233
18.8.2 目的:互動或探索234
18.9 數據可視化工具和軟件234
18.10 總結234