CDA三級認證教材:敏捷數據挖掘

CDA數據科學研究院

  • 出版商: 電子工業
  • 出版日期: 2026-01-01
  • 售價: $654
  • 語言: 簡體中文
  • 頁數: 420
  • ISBN: 7121516039
  • ISBN-13: 9787121516030
  • 相關分類: Data-mining
  • 尚未上市,歡迎預購

相關主題

商品描述

本書作為CDA三級認證教材,打破了傳統的學院派知識整合模式,從業務應用場景出發來組織內容, 旨在更加貼近業務需求,而非單純羅列算法。經過多年的打磨,本書精選了在行業應用中價值最大的九類場景,並提供不同場景下構建數據應用的最佳實踐。 本書涉及的算法不僅涵蓋傳統的統計學習,還結合企業實際需求,解構了機器學習、深度學習的前沿方法,並提供了豐富的示例代碼, 以便讀者借鑒。本書分為三篇:理論篇、技術篇和管理篇。 理論篇共1章,講解數據挖掘的核心思維、算法模型和數據挖掘之間的關系, 以及數據挖掘的落地場景框架。技術篇共6章,講解決策類、識別類、優化分析類模型的具體算法,以及參數調優、特征工程、類別不平衡問題等內容。管理篇共2章,講解 MLOps 和模型生命周期管理。

目錄大綱

目錄

第1篇 原理篇
第1章 進階數據分析思維
1.1 數字化時代的三種重要思維 1
1.1.1 設計思維 .2
1.1.2 敏捷思維 .4
1.1.3 數據思維 .7
1.2 數據思維在現代企業管理中的作用 8
1.2.1 探查階段的數據分析 .9
1.2.2 定義階段的數據分析 .10
1.2.3 設計階段的數據分析 .13
1.2.4 交付階段的數據分析 .15
第2章 量化策略分析框架.20
2.1 探索階段 23
2.2 診斷階段 24
2.3 指導階段 27
第3章 量化策略分析流程.29
3.1 發現問題 31
3.2 近因分析 33
3.3 根因分析 35
3.4 做出預測 36
3.5 制定方案 37
3.6 驗證方案 38
3.7 工具支持 39
第2篇 技術篇
第4章 數據處理.42
4.1 使用pandas讀取結構化數據 .43
4.1.1 讀取數據 .44
4.1.2 寫出數據 .47
4.2 數據整合 47
4.2.1 行、列操作 .47
4.2.2 條件查詢 .51
4.2.3 橫向連接 .54
4.2.4 縱向合並 .57
4.2.5 排序 .60
4.2.6 分組匯總 .61
4.2.7 拆分列 .65
4.2.8 賦值與條件賦值 .66
4.3 數據清洗 69
4.3.1 重復值處理 .69
4.3.2 缺失值處理 .70
第5章 數據可視化74
5.1 Python可視化 74
5.1.1 Matplotlib繪圖庫 .74
5.1.2 Seaborn繪圖庫.83
5.2 描述性統計分析與繪圖 89
5.2.1 描述性統計進行數據探索 .89
5.2.2 制作報表與統計圖形 .99
第6章 市場調研與數據預處理.107
6.1 數據采集方法 107
6.1.1 市場研究中的數據 .107
6.1.2 概率抽樣方法 .108
6.1.3 非概率抽樣方法 .114
6.1.4 概率抽樣和非概率抽樣的比較 .116
6.2 市場調研和數據錄入 116
6.2.1 市場調研流程 .116
6.2.2 市場調研目標設定 .117
6.2.3 市場調研前的準備工作 .117
6.2.4 實施調研 .124
6.3 數據預處理基礎 125
6.3.1 數據預處理基本步驟 .125
6.3.2 錯誤數據識別與處理 .126
6.3.3 連續變量離群值識別與處理 .130
6.3.4 分類變量概化處理 .132
6.3.5 缺失值處理 .133
6.3.6 連續變量分布形態轉換 .136
6.3.7 連續變量中心標準化或歸一化 .137
6.3.8 變量降維 .138
6.3.9 WoE轉換 139
第7章 數據降維方法141
7.1 矩陣分析法 141
7.2 連續變量降維 146
7.2.1 方法概述 .147
7.2.2 變量篩選 .147
7.2.3 維度規約 .147
7.3 主成分分析法 148
7.3.1 主成分分析簡介 .148
7.3.2 主成分分析原理 .149
7.3.3 主成分分析的運用 .152
7.3.4 實戰案例:在Python中實現主成分分析 .153
7.3.5 基於主成分的冗余變量篩選 .156
7.4 因子分析法 157
7.4.1 因子分析模型 .158
7.4.2 因子分析算法 .159
7.4.3 實戰案例:在Python中實現因子分析 .162
第8章 使用統計學方法進行檢驗和預測.167
8.1 假設檢驗 167
8.1.1 假設檢驗的基本原理 .168
8.1.2 假設檢驗中的兩類錯誤 .169
8.1.3 假設檢驗與區間估計的聯系 .170
8.1.4 假設檢驗的基本步驟 .171
8.1.5 配對樣本t檢驗172
8.2 方差分析 172
8.2.1 單因素方差分析 .173
8.2.2 多因素方差分析 .178
8.3 列聯表分析與卡方檢驗 181
8.3.1 列聯表 .1818.3.2 卡方檢驗 .183
8.4 線性回歸 185
8.4.1 簡單線性回歸 .185
8.4.2 多元線性回歸 .187
8.4.3 多元線性回歸的變量篩選 .196
8.4.4 線性回歸模型的經典假設 .199
8.4.5 建立線性回歸模型的基本步驟 .208
8.5 邏輯回歸 209
8.5.1  邏輯回歸的相關關系分析 211
8.5.2  邏輯回歸模型及實現 213
8.5.3  邏輯回歸的極大似然估計 223
8.5.4 模型評估 .225
8.5.5 因果推斷模型 .233
第9章 用戶分群方法.239
9.1 用戶細分與聚類 239
9.1.1 用戶細分的重要意義 .23
99.1.2 用戶細分的不同商業主題 .240
9.2 聚類分析的基本概念 247
9.3 聚類模型的評估 248
9.3.1 輪廓系數 .248
9.3.2 平方根標準誤差 249
9.3.3 R2 2499.3.4 ARI 250
9.4 層次聚類 250
9.4.1 層次聚類算法描述 .251
9.4.2 層次聚類分群數量的確定 .254
9.4.3 層次聚類應用簡單示例 .255
9.4.4 層次聚類的特點 .260
9.5 K-means聚類算法 260
9.5.1 K-means聚類算法描述 260
9.5.2 K-means聚類算法的應用:用戶細分 261
9.6 聚類事後分析:決策樹應用 269
9.6.1 決策樹的基本概念 .269
9.6.2 利用決策樹解讀用戶分群後的特征 .271
第3篇 管理篇
第10章 企業數據管理方法論.274
10.1 基本概念和關鍵術語解析 274
10.1.1 背景與目標 .274
10.1.2 數據管理主要模塊及其關系 .276
10.1.3 數據生存周期管理 .279
10.2 輸入和資源需求 282
10.2.1 業務戰略 .282
10.2.2 組織文化 .283
10.2.3 架構設計和IT系統現狀說明 .283
10.3 數據治理流程 283
10.3.1 “盤”:盤清現狀 .284
10.3.2 “規”:制定規範 .289
10.3.3 “治”:問題整治 .291
10.3.4 “用”:數據應用 .292
10.4 輸出和績效評估 292
10.4.1 數據管理的輸出 .292
10.4.2 數據管理的績效評估 .293
10.5 數據管理的成熟度模型 294
10.5.1 能力域和能力項 .294
10.5.2 成熟度評估等級 .298
10.6 數據資產價值評估與數據資源入表 301
10.6.1 數據資產價值評估方法 .301
10.6.2 數據資源入表 .305
10.7 本章小結 307
第11.章 企業數據安全管理方法論.308
11.1 數據安全導論 308
11.1.1 數據安全需求 .308
11.1.2 數據安全定義 .312
11.1.3 數據安全管理目標和原則 .312
11.2 輸入和資源需求 314
11.2.1 業務需求 .314
11.2.2 監管要求 .314
11.3 數據生存周期安全管理流程 314
11.3.1 數據安全需求分析 .314
11.3.2 制定數據安全制度和細則 .315
11.3.3 數據的分類分級 .316
11.3.4 數據安全實施控制 .319
11.4 輸出和績效評估 321
11.4.1 數據安全的輸出 .321
11.4.2 數據安全的績效評估 322
11.5 數據安全能力成熟度模型 323
11.6 本章小結 327