數據倉庫與數據挖掘(第2版 微課版)
袁漢寧 王樹良 阮思捷 耿晶 金福生
- 出版商: 人民郵電
- 出版日期: 2025-12-01
- 售價: $360
- 語言: 簡體中文
- 頁數: 247
- ISBN: 7115677883
- ISBN-13: 9787115677884
-
相關分類:
Data-mining、Data-visualization、大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書系統地介紹了數據倉庫和數據挖掘的基本原理和應用方法,內容主要包括數據倉庫的概念和相關技術發展、數據模型、數據 ETL,數據挖掘的數據預處理、數據分類、回歸分析、關聯規則挖掘、數據聚類、異常檢測、數據可視化等算法,以及大數據智能平臺的設計與實現。各章節以數據為“經”組織,以算法為“緯”講述,既自然銜接又相對獨立。讀者可按教材的自然順序學習,也可據實際需要挑選相關章節學習。 本書適合高等學校大數據科學與技術、人工智能、計算機科學與技術、軟件工程等專業方向的本科生、研究生作為教材或參考書,也可供相關領域的科研、工程人員參考
作者簡介
王樹良,教授,博士生導師,北京理工大學電子政務研究院執行院長,第十一屆全國青聯委員,中國制造企業雙創發展聯盟副理事長,國家科技創新專項專家咨詢組秘書長,教育部高等學校軟件工程專業教學指導委員會委員,中國指揮與控制學會認知與行為專業委員會主任,數字政府建設服務聯盟專家指導委員會委員,大數據系統軟件國家工程研究中心技術指導委員會委員,Chinese Journal of Electronics編委。 入選國家高層次領軍人才、科技部領軍人才、教育部新世紀優秀人才、CICC青年科學家等。 主持國家重點研發計劃項目、國家科技創新戰略重大專項、國家自然科學基金項目等。 獲國家科學技術進步獎一等獎、全國優秀博士學位論文、中國指揮與控制學會技術發明一等獎等。
目錄大綱
第1章 概述 1
1.1 引言 1
1.1.1 數據劇增 1
1.1.2 生產要素 2
1.1.3 數據戰略 2
1.2 研究歷程 3
1.2.1 數據管理分析的歷程 3
1.2.2 數據挖掘的歷程 4
1.2.3 大數據的歷程 5
1.3 數據挖掘的流程 6
1.3.1 業務理解 7
1.3.2 數據理解 7
1.3.3 數據準備 8
1.3.4 建立模型 8
1.3.5 模型評估 8
1.3.6 結果部署 9
1.4 數據驅動的應用 9
1.4.1 能源環保 9
1.4.2 醫療衛生 9
1.4.3 社會治安 10
1.4.4 城市發展 10
1.4.5 影視娛樂 10
1.4.6 推薦系統 11
1.5 關鍵挑戰 11
1.5.1 數據龐大價值疏 11
1.5.2 多源異構變化快 12
1.5.3 解釋困難隱私多 13
本章習題 13
第2章 數據 14
2.1 數據的基本內容 14
2.1.1 蘊含內容 14
2.1.2 基本類型 14
2.1.3 數據形態 18
2.1.4 數據屬性 18
2.2 數據的統計特征 20
2.2.1 集中趨勢 20
2.2.2 離散程度 21
2.2.3 分布形狀 22
2.3 數據的相似相異 23
2.3.1 集合距離 24
2.3.2 幾何距離 24
2.3.3 語義距離 25
本章習題 26
第3章 數據預處理 27
3.1 數據清洗 27
3.1.1 被汙染的數據 27
3.1.2 數據清洗的過程 30
3.1.3 數據清洗的方法 30
3.2 數據變換 33
3.2.1 數據平滑 33
3.2.2 數據銳化 33
3.2.3 數據規範化 34
3.2.4 數據離散化 35
3.3 數據集成 38
3.3.1 基於數據倉庫的方案 38
3.3.2 基於虛擬集成系統的方案 39
3.4 數據融合 40
3.4.1 基於知識圖譜的數據融合 41
3.4.2 基於知識圖譜的融合數據應用 42
3.5 數據歸約 42
3.5.1 屬性歸約 42
3.5.2 數值歸約 44
本章習題 46
第4章 數據倉庫和數據湖 47
4.1 數據倉庫的概念 47
4.1.1 從數據庫到數據倉庫 47
4.1.2 數據倉庫的特點 48
4.1.3 傳統數據倉庫的Inmon模式、Kimball模式 49
4.1.4 動態數據倉庫 50
4.1.5 海量數據倉庫 50
4.2 數據倉庫模型 51
4.2.1 星型模型 51
4.2.2 雪花型模型 52
4.2.3 星-雪花型模型 53
4.2.4 數據立方體 53
4.3 數據ETL 55
4.3.1 數據抽取 55
4.3.2 數據轉換 56
4.3.3 數據加載 57
4.4 OLAP 57
4.4.1 從OLTP到OLAP 57
4.4.2 OLAP系統分類 58
4.4.3 OLAP基本操作 59
4.4.4 基於OLAP的數據挖掘 61
4.5 數據湖 61
4.5.1 數據湖的架構 62
4.5.2 數據湖的組成部分及其關系 62
4.5.3 存儲系統 64
4.5.4 數據探索 65
4.6 湖倉一體 66
4.6.1 湖倉一體的架構 67
4.6.2 湖倉一體的優劣 68
本章習題 68
第5章 關聯規則 69
5.1 關聯規則的基本思想 69
5.2 關聯規則的主要算法 71
5.2.1 Apriori算法 72
5.2.2 FP-Growth算法——Apriori算法的優化 77
5.3 關聯規則的研發歷程 79
本章習題 80
第6章 聚類 81
6.1 聚類的基本思想 81
6.1.1 簇 81
6.1.2 聚類分析 81
6.1.3 聚類評價指標 82
6.2 聚類的主要算法 84
6.2.1 k-means算法 85
6.2.2 高斯混合模型 90
6.2.3 層次聚類算法 92
6.2.4 DBSCAN聚類算法 98
6.2.5 網格聚類 101
6.2.6 拓撲圖聚類 103
6.2.7 引力聚類 105
6.2.8 深度聚類 107
6.3 聚類的研發歷程 109
本章習題 110
第7章 分類 111
7.1 分類的基本思想 111
7.1.1 相關概念 111
7.1.2 算法評價指標 111
7.2 分類的主要算法 113
7.2.1 決策樹算法及其優化 113
7.2.2 CART算法 121
7.2.3 SVM算法 124
7.2.4 KNN算法 129
7.2.5 樸素貝葉斯算法 132
7.3 分類的研發歷程 136
本章習題 137
第8章 回歸分析 138
8.1 回歸分析的基本思想 138
8.2 回歸分析的主要模型 138
8.2.1 線性回歸模型 139
8.2.2 非線性回歸模型 143
8.2.3 逐步回歸分析 145
8.2.4 邏輯回歸分析 146
8.3 回歸分析的研發歷程 148
本章習題 149
第9章 異常檢測 150
9.1 異常檢測的基本思想 150
9.1.1 異常種類 150
9.1.2 異常檢測方法 150
9.2 異常檢測的主要算法 151
9.2.1 基於統計的異常檢測 152
9.2.2 基於距離的異常檢測 156
9.2.3 基於密度的異常檢測 157
9.2.4 基於聚類的異常檢測 159
9.2.5 時間序列異常檢測 162
9.3 異常檢測的研發歷程 164
本章習題 166
第10章 高級數據分析方法 167
10.1 集成學習 167
10.1.1 裝袋算法 167
10.1.2 提升 168
10.2 深度學習 169
10.2.1 多層感知機 170
10.2.2 卷積神經網絡 172
10.2.3 遞歸神經網絡 173
10.2.4 Transformer 174
10.3 強化學習 178
10.3.1 馬爾可夫決策過程 178
10.3.2 基於值的強化學習 179
10.3.3 基於策略的強化學習 181
10.4 大模型預訓練 183
10.4.1 BERT 183
10.4.2 GPT 185
10.4.3 BERT與GPT對比分析 186
本章習題 187
第11章 數據可視化 189
11.1 可視化基本思想 189
11.1.1 可視化人機交互 189
11.1.2 可視化分析 189
11.2 可視化主要方法 189
11.2.1 統計數據可視化方法 190
11.2.2 高維數據可視化方法 193
11.2.3 圖數據可視化方法 194
11.2.4 文本數據可視化方法 197
11.2.5 時空數據可視化方法 199
11.2.6 交互可視化方法 199
11.3 基於可視化的交互式數據挖掘方法 200
11.3.1 基於可視化的交互式數據挖掘方法分類 200
11.3.2 可視化增強的通用數據挖掘方法 200
11.3.3 面向應用場景的方法 201
11.4 可視化數據分析挖掘的研發歷程 203
本章習題 204
第12章 典型應用 205
12.1 客戶流失預測 205
12.1.1 業務理解 205
12.1.2 數據理解 205
12.1.3 數據準備 207
12.1.4 構建模型 215
12.1.5 評估模型 221
12.1.6 結果部署 223
12.2 客戶穩定度評估 224
12.2.1 業務理解 224
12.2.2 數據理解 225
12.2.3 數據準備 229
12.2.4 構建模型 230
12.2.5 評估模型 237
12.2.6 結果部署 239
12.3 基於梧桐·鴻鵠大數據實訓平臺的案例實踐 239
12.3.1 客戶流失預測 240
12.3.2 客戶穩定度評估 244
本章習題 245
參考文獻 246
