數據驅動(機器學習實戰之道全彩圖解版)
牛亞運
- 出版商: 機械工業
- 出版日期: 2025-05-01
- 售價: $894
- 語言: 簡體中文
- 頁數: 388
- ISBN: 7111779304
- ISBN-13: 9787111779308
-
相關分類:
Machine Learning
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書旨在幫助讀者從零開始,系統掌握數據科學核心技術,並通過實戰案例深化理解。本書共分為8章,包括數據科學技術簡介,數據可視化技術,數據科學任務完整流程,初步探索性數據分析(EDA),數據工程(數據分析+數據處理),模型訓練、評估與推理,模型發布、部署與監控,模型項目整體性分析、反思與優化,同時涵蓋了數據采集、處理、可視化、建模及評估的全流程,配備詳盡理論講解與代碼示例,助力讀者在數據驅動的世界中遊刃有余,解決實際問題,實現數據價值優化。本書相關代碼可掃描封底二維碼獲得。 無論是想要轉行數據科學的職場人士,還是對數據科學充滿好奇的學生和愛好者,這本書都將是寶貴資源。
作者簡介
牛亞運(網名:一個處女座的程序猿),機器學習和大模型算法專家,國內知名AI博主,入選關鍵對話“50位頂尖創業者和技術人”榜單,擔任達摩院評測官及多個頭部社區的專家博主。累計獲得20余項專業資質,包括AI認證、軟件著作權、國家發明專利及國際期刊SCI等。AI領域粉絲超200萬,文章瀏覽量突破6000萬。
目錄大綱
前言
第1部分 數據科學技術實戰
第1章 數據科學技術簡介
1.1 數據科學技術概述
1.2 數據科學生命周期簡介
1.2.1 數據科學生命周期概述
1.2.2 CRISP-DM模型簡介
1.2.3 TDSP模型簡介
1.2.4 五大模型對比與總結
第2章 數據可視化技術
2.1 基礎圖簡介及代碼實現
2.1.1 單維度可視化
2.1.2 多維度可視化
2.1.3 其他圖的簡介
2.2 多圖組合的簡介及代碼實現
2.2.1 單關系圖(Jointplot/JointGrid函數)
2.2.2 多變量關系矩陣圖(pairplot/PairGrid函數)
2.2.3 數據分組矩陣圖(FacetGrid函數)
2.3 三維圖簡介及其代碼實現
2.3.1 三維散點圖、三維柱狀圖、三維折線圖
2.3.2 三維標簽圖——八象空間三維圖
2.4 動態圖簡介及其代碼實現
2.4.1 動態趨勢圖
2.4.2 動態軌跡圖
2.5 常用的圖可視化相關庫
2.5.1 常用庫的概述
2.5.2 不同庫的對比
第3章 數據科學任務完整流程
3.1 數據科學任務流程概述
3.2 問題定義
3.3 數據認知
3.3.1 數據認知概述
3.3.2 數據收集
3.3.3 數據渠道
3.3.4 數據存儲
3.3.5 數據采樣
3.3.6 數據不均衡
3.3.7 特征初篩
3.4 機器學習核心流程
3.5 決策支持
第2部分 機器學習流程五大階段詳解
第4章 初步探索性數據分析(EDA)
4.1 EDA概述
4.2 載入數據
4.2.1 載入數據概述
4.2.2 載入數據代碼實戰
4.3 初步概覽數據集信息
4.3.1 初步概覽數據集信息概述
4.3.2 初步概覽數據集信息代碼實戰
4.4 劃分特征類型
4.4.1 相關術語解釋
4.4.2 四大特征類型概述
4.4.3 劃分特征類型代碼實戰
4.5 分離特征與標簽
4.5.1 分離特征與標簽概述
4.5.2 分離特征與標簽代碼實戰
第5章 數據工程(數據分析+數據處理)
5.1 數據工程概述
5.2 數據清洗
5.2.1 數據對齊——針對原生“類別型”特征
5.2.2 缺失值的分析與處理
5.2.3 異常值的分析與處理
5.2.4 特殊值的分析與處理
5.3 數據分析與處理
5.3.1 數據分析與處理概述
5.3.2 校驗兩份數據集是否同分布
5.3.3 目標變量的分析與處理
5.3.4 “類別型”特征分析與處理
5.3.5 “數值型”特征分析與處理
5.3.6 組合關聯統計分析
5.4 構造特征
5.4.1 基於常識經驗和領域知識構造特征
5.4.2 基於純技術構造特征
5.4.3 基於業務規則和意義構造特征
5.4.4 利用深度學習技術自動構造特征
5.4.5 相關庫和框架
5.5 特征三化
5.5.1 特征三化概述
5.5.2 “數值型”特征歸一化
5.5.3 “類別型”特征編碼化
5.5.4 特征向量化
5.6 優化特征集
5.6.1 優化特征集概述
5.6.2 特征刪除
5.6.3 特征篩選
5.6.4 特征降維(狹義)
5.7 特征導出(可選)
第6章 模型訓練、評估與推理
6.1 模型訓練、評估與推理概述
6.2 數據集劃分
6.3 模型選擇與訓練
6.3.1 選擇算法
6.3.2 模型訓練
6.4 模型評估與調優
6.4.1 模型評估
6.4.2 模型調優
6.5 模型預測結果剖析
6.5.1 Bad-case分析
6.5.2 特征重要性挖掘
6.6 模型可解釋性分析
6.6.1 模型可解釋相關圖的簡介
6.6.2 模型可解釋性分析代碼實戰
6.7 模型導出並推理
6.7.1 模型導出
6.7.2 模型推理(基於無標簽的新數據)
6.7.3 模型導出並推理代碼實戰
第7章 模型發布、部署與監控
7.1 模型發布、部署與監控概述
7.2 模型發布
7.2.1 模型發布概述
7.2.2 模型發布代碼實戰
7.3 模型部署
7.3.1 模型部署概述
7.3.2 模型部署的實現
7.3.3 模型部署的流程
7.3.4 模型部署代碼實戰
7.4 模型監控
7.4.1 模型監控概述
7.4.2 模型監控常用工具
7.4.3 模型監控代碼實戰
第8章 模型項目整體性分析、反思與優化
8.1 模型項目整體性分析、反思與優化概述
8.2 模型過擬合/欠擬合問題
8.2.1 模型過擬合/欠擬合問題概述
8.2.2 L1正則化和L2正則化對比
8.2.3 模型過擬合/欠擬合問題代碼實戰
8.3 數據層面優化
8.3.1 數據層面優化概述
8.3.2 數據增強
8.3.3 數據稀疏及其優化
8.3.4 數據泄露及其優化
8.3.5 數據降內存
8.4 算法層面優化
8.4.