AI時代的數據價值創造:從數據底座到大模型應用落地
劉汪根 王志軍 陳果
相關主題
商品描述
本書旨在幫助數據行業的從業者在 AI 時代提升數據管理和數據技術認知水平,內容覆蓋數據價值創造的理論、技術和實踐。
本書共 8 章。第 1 章回顧企業數據的發展歷史,並講解現代企業數據組織。第 2 章從多維度解析數據價值的創造路徑,包括從構建數字化決策、加速業務創新和推動 AI 變革等視角介紹數據價值創造的方法和成果。第 3 章系統講解數據管理的方法與技術,包括數據資產管理、數據資產運營、數據平臺架構的規劃及實踐案例。第 4 章講解數據要素價值化的路徑探索,包括數據要素在多行業的應用、基礎體系、可信數據流通技術及數據資產入表。第 5 章講解數據底座的技術與實踐,包括數據底座的架構要求、分佈式存儲技術、分佈式計算技術等,以及多種架構介紹。第 6 章講解數據與 AI 的融合,包括推薦系統、基於 LLM 的數據治理分析、數據標註等。第 7 章介紹企業 AI 應用的方法論與知識融合。第 8 章是數據領域技術趨勢與思考,包括數據技術的自主可控、開源技術的發展與挑戰、數據中台的發展歷程與思考、數據編織技術的原理與展望。
本書適合對大數據技術、數據管理、數據價值、數據與 AI 融合及相關技術感興趣的讀者閱讀,尤其適合從事大數據相關工作或旨在推動企業數字化轉型的讀者閱讀。
作者簡介
劉汪根,現任星環科技副總裁、聯合創始人,CCF大數據專家委員會和數據治理發展委員會執行委員。幫助星環打造了一系列自主可控、技術領先的大數據基礎軟件產品,成為全球首個通過國際基準測試TPC-DS認證的公司。
王志軍,中國聯通軟件研究院副院長,首席安全官。致力於大數據、雲計算、AI及企業信息化領域研究,是通信行業大數據平臺建設的開拓者,曾幫助運營商率先實現全網數據集約化、百PB級數據集中高效處理。
陳果,企業知識開源計劃創始人兼首席佈道師,波士頓咨詢公司前董事總經理,IBM咨詢前全球執行合夥人。在管理咨詢和IT咨詢行業擁有24年從業經驗,為消費品和零售、高科技、冶金和化工、汽車和機械、物流、銀行、保險等行業的100多家企業提供過咨詢服務。
目錄大綱
第 1章 數字化與信息化
1.1 數據與信息 1
1.2 數據處理的起源 2
1.3 數字化的數據處理 3
1.3.1 從機械化到數字化 4
1.3.2 從數據處理到信息系統 7
1.3.3 面向記錄事務的數據管理 9
1.4 數據管理與分析 12
1.5 商業智能與數據科學 14
1.6 數據可視化 16
1.7 現代企業數據組織 19
1.7.1 數據工程師 20
1.7.2 數據分析師 21
1.7.3 數據科學家 22
1.7.4 數據管理人員 23
第 2章 數據價值的創造路徑
2.1 數據分析創造價值 24
2.1.1 企業數據價值創造的階段化路徑 24
2.1.2 國內數字化的行業觀察 27
2.2 數據價值:數字化決策 30
2.2.1 運營管理的數字化 30
2.2.2 風險管理的數字化 32
2.2.3 營銷獲客的數字化 34
2.3 數據價值:業務創新 37
2.3.1 線下業務轉線上 37
2.3.2 監管的數字化 39
2.4 數據價值:推動AI變革 42
2.4.1 ImageNet 42
2.4.2 數字療法 43
2.5 數據價值創造的組織保障 44
2.5.1 數據管理團隊能力建設 47
2.5.2 數據產品團隊能力建設 48
2.5.3 數據底座團隊能力建設 49
第3章 數據管理的方法與技術
3.1 數據資產管理 51
3.1.1 數據模型管理 52
3.1.2 數據標準管理 55
3.1.3 數據質量管理 57
3.1.4 主數據管理 59
3.1.5 元數據管理 61
3.1.6 數據安全管理 63
3.1.7 數據資產管理平臺 65
3.2 數據資產運營 69
3.2.1 數據可視化 69
3.2.2 商業智能 71
3.2.3 數據洞察 73
3.2.4 數據標簽 74
3.2.5 數據指標 76
3.2.6 數據資產盤點與編目 77
3.2.7 數據資產運營平臺 80
3.3 數據平臺架構 82
3.3.1 數據倉庫 82
3.3.2 數據湖 86
3.3.3 數據集市 89
3.3.4 數據中台 90
3.4 中國聯通的數據運營體系 93
3.4.1 數據運營體系的建設由來 93
3.4.2 數據運營的規範統一 94
3.4.3 統一工具支撐“一體化運營” 94
3.4.4 “一套數據管理體系”
保障數據供給 95
第4章 數據要素價值化的路徑探索
4.1 數據要素:數據價值的產業化 98
4.1.1 數據要素×醫療健康 98
4.1.2 數據要素×金融服務 101
4.1.3 數據要素×智慧農業 103
4.1.4 數據要素×氣象服務 104
4.2 數據要素的基礎體系 106
4.2.1 數據基礎設施 106
4.2.2 數據基礎制度 108
4.3 可信數據流通技術 110
4.3.1 數據空間 110
4.3.2 其他技術路徑 115
4.4 數據資產入表 118
4.4.1 數據資產的確認 118
4.4.2 數據資產的會計計量 120
4.4.3 數據資源入表管理平臺 121
第5章 數據底座的技術與實踐
5.1 數據底座的架構要求 124
5.1.1 數據底座的能力要求 124
5.1.2 數據底座的核心功能 126
5.2 分佈式存儲技術 128
5.2.1 分佈式文件存儲HDFS 130
5.2.2 對象存儲Ceph 131
5.2.3 寬表存儲HBase 132
5.2.4 文檔搜索引擎Elasticsearch 135
5.3 分佈式計算技術 137
5.3.1 MapReduce 140
5.3.2 Spark 142
5.3.3 Presto 145
5.4 分佈式資源管理技術 147
5.5 分析型數據庫 151
5.5.1 MPP數據庫 152
5.5.2 分佈式分析型數據庫 155
5.5.3 分析型數據庫的評價 158
5.6 數據聯邦 162
5.7 湖倉一體架構 165
5.7.1 Hudi 166
5.7.2 Iceberg 168
5.7.3 Delta Lake 171
5.8 流批一體架構 172
5.8.1 Lambda架構 173
5.8.2 Kappa架構 174
5.8.3 Flink 176
5.9 存算分離架構 177
5.9.1 基於雲存儲的存算分離 179
5.9.2 基於本地存儲的存算分離 180
5.10 中國聯通集團的數據底座建設 183
5.10.1 大數據技術架構 183
5.10.2 數據平臺架構 188
第6章 數據與AI的融合
6.1 推薦系統 191
6.1.1 協同過濾 192
6.1.2 內容過濾 193
6.1.3 基於向量的近鄰召回的推薦系統 193
6.1.4 基於點擊率預估模型的推薦系統 194
6.2 基於LLM的數據治理與分析 195
6.2.1 智能化數據治理 195
6.2.2 基於LLM的數據分析 199
6.3 數據標註 200
6.4 向量數據庫 202
6.4.1 特徵與向量 203
6.4.2 相似度的度量 204
6.4.3 向量檢索的召回率與準確率 205
6.4.4 向量檢索與索引技術 206
6.5 知識圖譜 211
6.5.1 知識的表示方法 212
6.5.2 知識抽取與推理技術 213
6.5.3 知識存儲與圖模型 215
6.5.4 圖數據庫與圖計算技術 216
6.6 AI數據安全的挑戰與防護技術 217
6.6.1 對抗樣本攻擊與防禦 218
6.6.2 數據投毒攻擊與防禦 219
6.6.3 後門攻擊與防禦 220
6.6.4 預訓練大模型的數據風險 221
第7章 企業AI應用的方法論與知識融合
7.1 通用模型、推理模型與智能體 223
7.1.1 通用模型 223
7.1.2 推理模型 224
7.1.3 智能體 224
7.1.4 典型案例:DeepSeek大模型 226
7.2 企業AI應用落地方法論 227
7.2.1 企業AI應用落地條件 227
7.2.2 企業AI落地場景 228
7.2.3 企業AI場景實踐案例 229
7.3 大模型與企業知識融合 229
7.3.1 大模型數據調優難題:Demo與上線的差距 229
7.3.2 LLM的知識機制 230
7.3.3 企業AI應用的基礎設施只需要DeepSeek嗎 231
7.4 知識工程中的大模型應用 233
7.4.1 大模型參數差異與NER任務的影響 233
7.4.2 知識增強對實體識別的優化 234
7.4.3 易混淆知識的識別策略 236
7.4.4 知識長度與識別準確率的關系 238
7.4.5 推理能力對大模型識別效果的影響 240
7.4.6 大模型驅動的知識工程流水線 242
第8章 數據領域技術趨勢與思考
8.1 數據技術的自主可控 245
8.2 開源技術的發展與挑戰 247
8.3 數據中台的發展歷程與思考 251
8.4 數據編織技術的原理與展望 253