無標簽數據處理:關鍵算法與模型實現

[英] 瓦伊巴夫·韋爾丹(Vaibhav Verdhan) 著 殷海英 譯

  • 無標簽數據處理:關鍵算法與模型實現-preview-1
  • 無標簽數據處理:關鍵算法與模型實現-preview-2
  • 無標簽數據處理:關鍵算法與模型實現-preview-3
無標簽數據處理:關鍵算法與模型實現-preview-1

商品描述

"生成式AI、預測算法、欺詐檢測以及許多其他分析任務依賴於廉價且豐富的無標簽數據。無標簽數據上的機器學習——即無監督學習——將原始文本、圖像和數字轉化為關於客戶的洞察、準確的計算機視覺以及用於訓練人工智能模型的高質量數據集。本書將展示如何實現這一切。 《無標簽數據處理:關鍵算法與模型實現》聚焦於無監督學習的數學基礎、算法以及實際應用。書中通過詳細註釋的Python代碼,提供了來自零售、航空和銀行領域的實際案例。你將探索聚類和降維等核心技術,以及自編碼器和生成對抗網絡(GAN)等高級話題。在學習過程中,你將了解如何將無監督學習應用於商業領域,並發現如何從零開始開發完整的機器學習模型。 本書主要內容 ?掌握無監督學習算法 ?實際商業應用 ?構建AI訓練數據集 ?探索自編碼器和生成對抗網絡(GAN)的應用"

作者簡介

"瓦伊巴夫???韋爾丹是一位經驗豐富的數據科學專家,在一家大型制藥公司從事數據科學項目工作。本書的技術編輯是達維德???德爾???文托。"

目錄大綱

目  錄

第Ⅰ部分 基礎

第1章 機器學習簡介  3

1.1 技術工具包  4

1.2 數據、數據類型、數據管理與質量  4

1.2.1 什麼是數據  4

1.2.2 各種類型的數據  5

1.2.3 數據質量  8

1.2.4 數據工程與管理  10

1.3 數據分析、機器學習(ML)、人工智能(AI)和商業智能(BI)  11

1.4 機器學習的基本原理  12

1.5 機器學習算法的類型  15

1.5.1 監督學習  15

1.5.2 無監督算法  20

1.5.3 半監督算法  24

1.5.4 強化學習  24

1.6 結語  25

1.7 本章小結  26

第2章 聚類技術  27

2.1 技術工具包  28

2.2 聚類  28

2.3 基於質心的聚類  31

2.3.1 k-means聚類  33

2.3.2 聚類準確性衡量  35

2.3.3 尋找k的最優值  36

2.3.4 k-means聚類的優缺點  37

2.3.5 使用Python實現k-means聚類  38

2.4 基於連接性的聚類  42

2.4.1 層次聚類的類型  44

2.4.2 距離度量的連接準則  45

2.4.3 最優聚類數  46

2.4.4 層次聚類的優缺點  47

2.4.5 使用Python進行層次聚類案例研究  48

2.5 基於密度的聚類  51

2.5.1 鄰域與密度  51

2.5.2 DBSCAN  52

2.6 使用聚類的案例研究  57

2.6.1 業務背景  58

2.6.2 分析數據集  58

2.6.3 建議的解決方案  59

2.6.4 問題的解決方案  59

2.7 聚類中常見的挑戰  61

2.8 結語  62

2.9 本章小結  63

第3章 降維基礎:線性投影與核心算法  65

3.1 技術工具包  66

3.2 高維災難  66

3.3 降維方法  69

3.4 手動降維方法  69

3.4.1 手動特征選擇  70

3.4.2 相關系數  71

3.4.3 基於算法的降維方法  71

3.5 主成分分析(PCA)  72

3.5.1 特征值分解  76

3.5.2 使用PCA的Python解決方案  76

3.6 奇異值分解  82

3.7 降維的優缺點  86

3.8 降維的案例研究  87

3.9 結語  90

3.10 本章小結  90

第Ⅱ部分 進階內容

第4章 關聯規則  95

4.1 技術工具包  96

4.2 關聯規則概述  96

4.3 關聯規則的構建塊  97

4.4 Apriori算法  102

4.4.1 Python實現  103

4.4.2 Apriori算法的挑戰  108

4.5 等價類聚類與自底向上的格結構遍歷  109

4.6 F-P算法  113

4.7 序列規則挖掘  118

4.8 關聯規則的案例研究  123

4.9 結語  125

4.10 本章小結  126

第5章 聚類  129

5.1 技術工具包  130

5.2 聚類:簡要回顧  130

5.3 譜聚類  131

5.3.1 譜聚類的基礎構建模塊  132

5.3.2 譜聚類的過程  135

5.4 譜聚類的Python實現  137

5.5 模糊聚類  139

5.5.1 模糊聚類的類型  140

5.5.2 FCM算法的Python實現  143

5.6 高斯混合模型  146

5.6.1 EM技術  148

5.6.2 GMM聚類的Python實現  149

5.7 結語  152

5.8 本章小結  152

第6章 高級降維:非線性嵌入與流形學習  153

6.1 技術工具包  154

6.2 多維尺度分析  154

6.2.1 經典MDS  156

6.2.2 非度量MDS  156

6.3 MDS的Python實現  160

6.4 t-分布隨機鄰居嵌入法  164

6.4.1 柯西分布  166

6.4.2 t-SNE的Python實現  168

6.5 均勻流形近似投影  171

6.5.1 使用UMAP  171

6.5.2 應用UMAP的幾方面  172

6.5.3 UMAP的關鍵點  172

6.6 案例研究  173

6.7 結語  174

6.8 本章小結  174

第7章 文本數據的無監督學習  177

7.1 技術工具包  178

7.2 文本數據無處不在  178

7.3 文本數據的應用案例  179

7.4 文本數據的挑戰  180

7.5 文本數據預處理  181

7.6 數據清理  182

7.7 從文本數據集中提取特征  183

7.8 分詞  184

7.9 詞袋模型方法  185

7.10 詞頻和逆文檔頻率  187

7.11 語言模型  188

7.12 使用Python進行文本清理  189

7.13 詞向量  193

7.14 Word2Vec和GloVe  194

7.15 使用Python實現的情感分析案例研究  195

7.16 使用Python進行文本聚類  202

7.17 用於文本數據的GenAI  203

7.18 結語  204

7.19 本章小結  204

第Ⅲ部分 高級概念

第8章 深度學習:基礎概念  209

8.1 技術工具包  210

8.2 神經網絡的構建模塊  211

8.2.1 神經網絡的解決方案  212

8.2.2 人工神經元和感知機  213

8.2.3 網絡中的不同層次  214

8.2.4 激活函數  215

8.2.5 超參數  218

8.2.6 優化函數  218

8.3 監督式深度學習如何工作  220

8.3.1 監督學習算法  220

8.3.2 步驟1:前向傳播  220

8.3.3 步驟2:添加損失函數  221

8.3.4 步驟3:計算誤差  222

8.4 反向傳播  222

8.4.1 反向傳播背後的數學原理  223

8.4.2 步驟4:優化  224

8.5 深度學習如何在無監督的情況下工作  225

8.6 卷積神經網絡  225

8.6.1 CNN的關鍵概念  226

8.6.2 CNN的應用  227

8.7 遞歸神經網絡  227

8.8 Boltzmann學習規則  228

8.8.1 Boltzmann學習規則的概念  228

8.8.2 關鍵點  229

8.9 深度信念網絡  229

8.10 流行的深度學習庫  231

8.11 結語  232

8.12 本章小結  234

第9章 自編碼器  235

9.1 技術工具包  235

9.2 特征學習  235

9.3 自編碼器簡介  236

9.4 自編碼器的組成  236

9.5 自編碼器的訓練  237

9.6 自編碼器的應用  238

9.7 自編碼器的類型  239

9.8 自編碼器的Python實現  241

9.9 結語  244

9.10 本章小結  244

第10章 生成對抗網絡、生成式人工智能和ChatGPT  245

10.1 人工智能:一種變革  245

10.2 生成式人工智能及其重要性  246

10.3 判別模型與生成式模型  247

10.4 生成對抗網絡  248

10.4.1 生成器網絡  249

10.4.2 判別器網絡  249

10.4.3 對抗訓練  250

10.4.4 GAN的變種與應用  250

10.4.5 BERT、GPT-3及其他模型  251

10.5 ChatGPT及其細節  252

10.5.1 ChatGPT的關鍵特點  252

10.5.2 ChatGPT的應用  252

10.6 GenAI的整合  252

10.7 結語  253

10.8 本章小結  254

第11章 端到端模型部署  255

11.1 機器學習建模過程  255

11.2 業務問題定義  256

11.3 數據發現與可行性分析  257

11.4 數據清洗和預處理  258

11.5 數據中的重復值  259

11.6 類別變量  260

11.7 數據集中的缺失值  261

11.8 數據中的異常值  262

11.9 探索性數據分析  263

11.10 模型開發與業務審批  263

11.11 模型部署  264

11.12 模型部署的目的  264

11.13 模型部署的類型  264

11.14 模型部署時的考慮因素  265

11.15 文檔  266

11.16 模型維護與更新  266

11.17 結語  267

11.18 本章小結  267

附錄A 數學基礎  269

A.1 聚類算法列表  269

A.1.1 基於劃分的算法  269

A.1.2 層次聚類  269

A.1.3 基於密度的算法  270

A.1.4 基於網格的算法  270

A.1.5 基於模型的算法  270

A.1.6 譜聚類  271

A.1.7 基於圖的聚類  271

A.1.8 子空間和高維聚類  271

A.1.9 模糊和軟聚類  272

A.1.10 基於約束的聚類  272

A.1.11 演化與遺傳聚類  272

A.1.12 基於神經網絡的聚類  272

A.1.13 其他算法  273

A.2 什麼是質心  273

A.3 L1範數與L2範數  273

A.4 行業內使用的不同數據縮放技術  273

A.5 時間復雜度O(n)  274

A.6 如何在Python中安裝包  275

A.7 相關性  275

A.7.1 相關系數  275

A.7.2 相關性的應用  276

A.7.3 重要註意事項  276

A.8 時間序列分析  276

A.9 數據表示的數學基礎  277

A.9.1 標量與向量  277

A.9.2 標準差與方差  277

A.9.3 協方差與相關性  278

A.9.4 矩陣分解、特征向量和特征值  279

A.9.5 特殊矩陣  280

A.10 超參數與參數  280