無標簽數據處理:關鍵算法與模型實現
[英] 瓦伊巴夫·韋爾丹(Vaibhav Verdhan) 著 殷海英 譯
- 出版商: 清華大學
- 出版日期: 2026-06-01
- 售價: $588
- 語言: 簡體中文
- ISBN: 7302716390
- ISBN-13: 9787302716396
-
相關分類:
Machine Learning
- 此書翻譯自: Data Without Labels: Practical Unsupervised Machine Learning (Paperback)
下單後立即進貨 (約4週~6週)
商品描述
作者簡介
目錄大綱
目 錄
第Ⅰ部分 基礎
第1章 機器學習簡介 3
1.1 技術工具包 4
1.2 數據、數據類型、數據管理與質量 4
1.2.1 什麼是數據 4
1.2.2 各種類型的數據 5
1.2.3 數據質量 8
1.2.4 數據工程與管理 10
1.3 數據分析、機器學習(ML)、人工智能(AI)和商業智能(BI) 11
1.4 機器學習的基本原理 12
1.5 機器學習算法的類型 15
1.5.1 監督學習 15
1.5.2 無監督算法 20
1.5.3 半監督算法 24
1.5.4 強化學習 24
1.6 結語 25
1.7 本章小結 26
第2章 聚類技術 27
2.1 技術工具包 28
2.2 聚類 28
2.3 基於質心的聚類 31
2.3.1 k-means聚類 33
2.3.2 聚類準確性衡量 35
2.3.3 尋找k的最優值 36
2.3.4 k-means聚類的優缺點 37
2.3.5 使用Python實現k-means聚類 38
2.4 基於連接性的聚類 42
2.4.1 層次聚類的類型 44
2.4.2 距離度量的連接準則 45
2.4.3 最優聚類數 46
2.4.4 層次聚類的優缺點 47
2.4.5 使用Python進行層次聚類案例研究 48
2.5 基於密度的聚類 51
2.5.1 鄰域與密度 51
2.5.2 DBSCAN 52
2.6 使用聚類的案例研究 57
2.6.1 業務背景 58
2.6.2 分析數據集 58
2.6.3 建議的解決方案 59
2.6.4 問題的解決方案 59
2.7 聚類中常見的挑戰 61
2.8 結語 62
2.9 本章小結 63
第3章 降維基礎:線性投影與核心算法 65
3.1 技術工具包 66
3.2 高維災難 66
3.3 降維方法 69
3.4 手動降維方法 69
3.4.1 手動特征選擇 70
3.4.2 相關系數 71
3.4.3 基於算法的降維方法 71
3.5 主成分分析(PCA) 72
3.5.1 特征值分解 76
3.5.2 使用PCA的Python解決方案 76
3.6 奇異值分解 82
3.7 降維的優缺點 86
3.8 降維的案例研究 87
3.9 結語 90
3.10 本章小結 90
第Ⅱ部分 進階內容
第4章 關聯規則 95
4.1 技術工具包 96
4.2 關聯規則概述 96
4.3 關聯規則的構建塊 97
4.4 Apriori算法 102
4.4.1 Python實現 103
4.4.2 Apriori算法的挑戰 108
4.5 等價類聚類與自底向上的格結構遍歷 109
4.6 F-P算法 113
4.7 序列規則挖掘 118
4.8 關聯規則的案例研究 123
4.9 結語 125
4.10 本章小結 126
第5章 聚類 129
5.1 技術工具包 130
5.2 聚類:簡要回顧 130
5.3 譜聚類 131
5.3.1 譜聚類的基礎構建模塊 132
5.3.2 譜聚類的過程 135
5.4 譜聚類的Python實現 137
5.5 模糊聚類 139
5.5.1 模糊聚類的類型 140
5.5.2 FCM算法的Python實現 143
5.6 高斯混合模型 146
5.6.1 EM技術 148
5.6.2 GMM聚類的Python實現 149
5.7 結語 152
5.8 本章小結 152
第6章 高級降維:非線性嵌入與流形學習 153
6.1 技術工具包 154
6.2 多維尺度分析 154
6.2.1 經典MDS 156
6.2.2 非度量MDS 156
6.3 MDS的Python實現 160
6.4 t-分布隨機鄰居嵌入法 164
6.4.1 柯西分布 166
6.4.2 t-SNE的Python實現 168
6.5 均勻流形近似投影 171
6.5.1 使用UMAP 171
6.5.2 應用UMAP的幾方面 172
6.5.3 UMAP的關鍵點 172
6.6 案例研究 173
6.7 結語 174
6.8 本章小結 174
第7章 文本數據的無監督學習 177
7.1 技術工具包 178
7.2 文本數據無處不在 178
7.3 文本數據的應用案例 179
7.4 文本數據的挑戰 180
7.5 文本數據預處理 181
7.6 數據清理 182
7.7 從文本數據集中提取特征 183
7.8 分詞 184
7.9 詞袋模型方法 185
7.10 詞頻和逆文檔頻率 187
7.11 語言模型 188
7.12 使用Python進行文本清理 189
7.13 詞向量 193
7.14 Word2Vec和GloVe 194
7.15 使用Python實現的情感分析案例研究 195
7.16 使用Python進行文本聚類 202
7.17 用於文本數據的GenAI 203
7.18 結語 204
7.19 本章小結 204
第Ⅲ部分 高級概念
第8章 深度學習:基礎概念 209
8.1 技術工具包 210
8.2 神經網絡的構建模塊 211
8.2.1 神經網絡的解決方案 212
8.2.2 人工神經元和感知機 213
8.2.3 網絡中的不同層次 214
8.2.4 激活函數 215
8.2.5 超參數 218
8.2.6 優化函數 218
8.3 監督式深度學習如何工作 220
8.3.1 監督學習算法 220
8.3.2 步驟1:前向傳播 220
8.3.3 步驟2:添加損失函數 221
8.3.4 步驟3:計算誤差 222
8.4 反向傳播 222
8.4.1 反向傳播背後的數學原理 223
8.4.2 步驟4:優化 224
8.5 深度學習如何在無監督的情況下工作 225
8.6 卷積神經網絡 225
8.6.1 CNN的關鍵概念 226
8.6.2 CNN的應用 227
8.7 遞歸神經網絡 227
8.8 Boltzmann學習規則 228
8.8.1 Boltzmann學習規則的概念 228
8.8.2 關鍵點 229
8.9 深度信念網絡 229
8.10 流行的深度學習庫 231
8.11 結語 232
8.12 本章小結 234
第9章 自編碼器 235
9.1 技術工具包 235
9.2 特征學習 235
9.3 自編碼器簡介 236
9.4 自編碼器的組成 236
9.5 自編碼器的訓練 237
9.6 自編碼器的應用 238
9.7 自編碼器的類型 239
9.8 自編碼器的Python實現 241
9.9 結語 244
9.10 本章小結 244
第10章 生成對抗網絡、生成式人工智能和ChatGPT 245
10.1 人工智能:一種變革 245
10.2 生成式人工智能及其重要性 246
10.3 判別模型與生成式模型 247
10.4 生成對抗網絡 248
10.4.1 生成器網絡 249
10.4.2 判別器網絡 249
10.4.3 對抗訓練 250
10.4.4 GAN的變種與應用 250
10.4.5 BERT、GPT-3及其他模型 251
10.5 ChatGPT及其細節 252
10.5.1 ChatGPT的關鍵特點 252
10.5.2 ChatGPT的應用 252
10.6 GenAI的整合 252
10.7 結語 253
10.8 本章小結 254
第11章 端到端模型部署 255
11.1 機器學習建模過程 255
11.2 業務問題定義 256
11.3 數據發現與可行性分析 257
11.4 數據清洗和預處理 258
11.5 數據中的重復值 259
11.6 類別變量 260
11.7 數據集中的缺失值 261
11.8 數據中的異常值 262
11.9 探索性數據分析 263
11.10 模型開發與業務審批 263
11.11 模型部署 264
11.12 模型部署的目的 264
11.13 模型部署的類型 264
11.14 模型部署時的考慮因素 265
11.15 文檔 266
11.16 模型維護與更新 266
11.17 結語 267
11.18 本章小結 267
附錄A 數學基礎 269
A.1 聚類算法列表 269
A.1.1 基於劃分的算法 269
A.1.2 層次聚類 269
A.1.3 基於密度的算法 270
A.1.4 基於網格的算法 270
A.1.5 基於模型的算法 270
A.1.6 譜聚類 271
A.1.7 基於圖的聚類 271
A.1.8 子空間和高維聚類 271
A.1.9 模糊和軟聚類 272
A.1.10 基於約束的聚類 272
A.1.11 演化與遺傳聚類 272
A.1.12 基於神經網絡的聚類 272
A.1.13 其他算法 273
A.2 什麼是質心 273
A.3 L1範數與L2範數 273
A.4 行業內使用的不同數據縮放技術 273
A.5 時間復雜度O(n) 274
A.6 如何在Python中安裝包 275
A.7 相關性 275
A.7.1 相關系數 275
A.7.2 相關性的應用 276
A.7.3 重要註意事項 276
A.8 時間序列分析 276
A.9 數據表示的數學基礎 277
A.9.1 標量與向量 277
A.9.2 標準差與方差 277
A.9.3 協方差與相關性 278
A.9.4 矩陣分解、特征向量和特征值 279
A.9.5 特殊矩陣 280
A.10 超參數與參數 280



