數據倉庫與數據挖掘(第2版 微課版)

袁漢寧 王樹良 阮思捷 耿晶 金福生

相關主題

商品描述

本書系統地介紹了數據倉庫和數據挖掘的基本原理和應用方法,內容主要包括數據倉庫的概念和相關技術發展、數據模型、數據 ETL,數據挖掘的數據預處理、數據分類、回歸分析、關聯規則挖掘、數據聚類、異常檢測、數據可視化等算法,以及大數據智能平臺的設計與實現。各章節以數據為“經”組織,以算法為“緯”講述,既自然銜接又相對獨立。讀者可按教材的自然順序學習,也可據實際需要挑選相關章節學習。 本書適合高等學校大數據科學與技術、人工智能、計算機科學與技術、軟件工程等專業方向的本科生、研究生作為教材或參考書,也可供相關領域的科研、工程人員參考

作者簡介

王樹良,教授,博士生導師,北京理工大學電子政務研究院執行院長,第十一屆全國青聯委員,中國制造企業雙創發展聯盟副理事長,國家科技創新專項專家咨詢組秘書長,教育部高等學校軟件工程專業教學指導委員會委員,中國指揮與控制學會認知與行為專業委員會主任,數字政府建設服務聯盟專家指導委員會委員,大數據系統軟件國家工程研究中心技術指導委員會委員,Chinese Journal of Electronics編委。 入選國家高層次領軍人才、科技部領軍人才、教育部新世紀優秀人才、CICC青年科學家等。 主持國家重點研發計劃項目、國家科技創新戰略重大專項、國家自然科學基金項目等。 獲國家科學技術進步獎一等獎、全國優秀博士學位論文、中國指揮與控制學會技術發明一等獎等。

目錄大綱

第1章 概述 1

1.1 引言 1

1.1.1 數據劇增 1

1.1.2 生產要素 2

1.1.3 數據戰略 2

1.2 研究歷程 3

1.2.1 數據管理分析的歷程 3

1.2.2 數據挖掘的歷程 4

1.2.3 大數據的歷程 5

1.3 數據挖掘的流程 6

1.3.1 業務理解 7

1.3.2 數據理解 7

1.3.3 數據準備 8

1.3.4 建立模型 8

1.3.5 模型評估 8

1.3.6 結果部署 9

1.4 數據驅動的應用 9

1.4.1 能源環保 9

1.4.2 醫療衛生 9

1.4.3 社會治安 10

1.4.4 城市發展 10

1.4.5 影視娛樂 10

1.4.6 推薦系統 11

1.5 關鍵挑戰 11

1.5.1 數據龐大價值疏 11

1.5.2 多源異構變化快 12

1.5.3 解釋困難隱私多 13

本章習題 13

第2章 數據 14

2.1 數據的基本內容 14

2.1.1 蘊含內容 14

2.1.2 基本類型 14

2.1.3 數據形態 18

2.1.4 數據屬性 18

2.2 數據的統計特征 20

2.2.1 集中趨勢 20

2.2.2 離散程度 21

2.2.3 分布形狀 22

2.3 數據的相似相異 23

2.3.1 集合距離 24

2.3.2 幾何距離 24

2.3.3 語義距離 25

本章習題 26

第3章 數據預處理 27

3.1 數據清洗 27

3.1.1 被汙染的數據 27

3.1.2 數據清洗的過程 30

3.1.3 數據清洗的方法 30

3.2 數據變換 33

3.2.1 數據平滑 33

3.2.2 數據銳化 33

3.2.3 數據規範化 34

3.2.4 數據離散化 35

3.3 數據集成 38

3.3.1 基於數據倉庫的方案 38

3.3.2 基於虛擬集成系統的方案 39

3.4 數據融合 40

3.4.1 基於知識圖譜的數據融合 41

3.4.2 基於知識圖譜的融合數據應用 42

3.5 數據歸約 42

3.5.1 屬性歸約 42

3.5.2 數值歸約 44

本章習題 46

第4章 數據倉庫和數據湖 47

4.1 數據倉庫的概念 47

4.1.1 從數據庫到數據倉庫 47

4.1.2 數據倉庫的特點 48

4.1.3 傳統數據倉庫的Inmon模式、Kimball模式 49

4.1.4 動態數據倉庫 50

4.1.5 海量數據倉庫 50

4.2 數據倉庫模型 51

4.2.1 星型模型 51

4.2.2 雪花型模型 52

4.2.3 星-雪花型模型 53

4.2.4 數據立方體 53

4.3 數據ETL 55

4.3.1 數據抽取 55

4.3.2 數據轉換 56

4.3.3 數據加載 57

4.4 OLAP 57

4.4.1 從OLTP到OLAP 57

4.4.2 OLAP系統分類 58

4.4.3 OLAP基本操作 59

4.4.4 基於OLAP的數據挖掘 61

4.5 數據湖 61

4.5.1 數據湖的架構 62

4.5.2 數據湖的組成部分及其關系 62

4.5.3 存儲系統 64

4.5.4 數據探索 65

4.6 湖倉一體 66

4.6.1 湖倉一體的架構 67

4.6.2 湖倉一體的優劣 68

本章習題 68

第5章 關聯規則 69

5.1 關聯規則的基本思想 69

5.2 關聯規則的主要算法 71

5.2.1 Apriori算法 72

5.2.2 FP-Growth算法——Apriori算法的優化 77

5.3 關聯規則的研發歷程 79

本章習題 80

第6章 聚類 81

6.1 聚類的基本思想 81

6.1.1 簇 81

6.1.2 聚類分析 81

6.1.3 聚類評價指標 82

6.2 聚類的主要算法 84

6.2.1 k-means算法 85

6.2.2 高斯混合模型 90

6.2.3 層次聚類算法 92

6.2.4 DBSCAN聚類算法 98

6.2.5 網格聚類 101

6.2.6 拓撲圖聚類 103

6.2.7 引力聚類 105

6.2.8 深度聚類 107

6.3 聚類的研發歷程 109

本章習題 110

第7章 分類 111

7.1 分類的基本思想 111

7.1.1 相關概念 111

7.1.2 算法評價指標 111

7.2 分類的主要算法 113

7.2.1 決策樹算法及其優化 113

7.2.2 CART算法 121

7.2.3 SVM算法 124

7.2.4 KNN算法 129

7.2.5 樸素貝葉斯算法 132

7.3 分類的研發歷程 136

本章習題 137

第8章 回歸分析 138

8.1 回歸分析的基本思想 138

8.2 回歸分析的主要模型 138

8.2.1 線性回歸模型 139

8.2.2 非線性回歸模型 143

8.2.3 逐步回歸分析 145

8.2.4 邏輯回歸分析 146

8.3 回歸分析的研發歷程 148

本章習題 149

第9章 異常檢測 150

9.1 異常檢測的基本思想 150

9.1.1 異常種類 150

9.1.2 異常檢測方法 150

9.2 異常檢測的主要算法 151

9.2.1 基於統計的異常檢測 152

9.2.2 基於距離的異常檢測 156

9.2.3 基於密度的異常檢測 157

9.2.4 基於聚類的異常檢測 159

9.2.5 時間序列異常檢測 162

9.3 異常檢測的研發歷程 164

本章習題 166

第10章 高級數據分析方法 167

10.1 集成學習 167

10.1.1 裝袋算法 167

10.1.2 提升 168

10.2 深度學習 169

10.2.1 多層感知機 170

10.2.2 卷積神經網絡 172

10.2.3 遞歸神經網絡 173

10.2.4 Transformer 174

10.3 強化學習 178

10.3.1 馬爾可夫決策過程 178

10.3.2 基於值的強化學習 179

10.3.3 基於策略的強化學習 181

10.4 大模型預訓練 183

10.4.1 BERT 183

10.4.2 GPT 185

10.4.3 BERT與GPT對比分析 186

本章習題 187

第11章 數據可視化 189

11.1 可視化基本思想 189

11.1.1 可視化人機交互 189

11.1.2 可視化分析 189

11.2 可視化主要方法 189

11.2.1 統計數據可視化方法 190

11.2.2 高維數據可視化方法 193

11.2.3 圖數據可視化方法 194

11.2.4 文本數據可視化方法 197

11.2.5 時空數據可視化方法 199

11.2.6 交互可視化方法 199

11.3 基於可視化的交互式數據挖掘方法 200

11.3.1 基於可視化的交互式數據挖掘方法分類 200

11.3.2 可視化增強的通用數據挖掘方法 200

11.3.3 面向應用場景的方法 201

11.4 可視化數據分析挖掘的研發歷程 203

本章習題 204

第12章 典型應用 205

12.1 客戶流失預測 205

12.1.1 業務理解 205

12.1.2 數據理解 205

12.1.3 數據準備 207

12.1.4 構建模型 215

12.1.5 評估模型 221

12.1.6 結果部署 223

12.2 客戶穩定度評估 224

12.2.1 業務理解 224

12.2.2 數據理解 225

12.2.3 數據準備 229

12.2.4 構建模型 230

12.2.5 評估模型 237

12.2.6 結果部署 239

12.3 基於梧桐·鴻鵠大數據實訓平臺的案例實踐 239

12.3.1 客戶流失預測 240

12.3.2 客戶穩定度評估 244

本章習題 245

參考文獻 246