機器學習基礎:面向預測數據分析的算法、實用範例與案例研究 請輸入商品條碼 Fundamentals of Machine Learning for Predictive Data Analytics : Algorithms, Worked Examples, and Case Studies, 2/e
- 出版商: 機械工業
- 出版日期: 2025-11-01
- 售價: $894
- 語言: 簡體中文
- 頁數: 560
- ISBN: 7111791630
- ISBN-13: 9787111791638
-
相關分類:
Machine Learning
- 此書翻譯自: Fundamentals of Machine Learning for Predictive Data Analytics : Algorithms, Worked Examples, and Case Studies, 2/e (Hardcover)
下單後立即進貨 (約4週~6週)
相關主題
商品描述
機器學習常用於從海量數據集中提取模式以構建預測模型。這些模型廣泛應用於預測性數據分析領域,包括價格預測、風險評估、客戶行為預測及文檔分類等。這本入門教材系統闡述了預測性數據分析中最核心的機器學習方法,兼顧理論概念與實踐應用。技術與數學內容輔以詳解的實例演練,案例研究則展示了這些模型在更廣泛商業場景中的應用。第2版新增了機器學習領域的最新進展,特別是關於深度學習的全新章節,以及兩章“預測模型之外”的內容——無監督學習與強化學習。 本書通俗易懂,在引入數學模型和算法之前,先以非技術性語言闡釋每種方法背後的核心理念。內容聚焦且深入,為學生提供核心概念的詳細介紹,奠定自主探索該領域的堅實基礎。無論是前面的章節還是後面的案例研究,都生動展示了預測模型學習過程如何融入更廣闊的商業實踐。第五部分的兩個案例研究詳細描述了數據分析項目的全過程,涵蓋從業務問題定義到分析解決方案實施的各個階段。本書既可作為入門教材使用,也可作為專業人士的參考指南。
作者簡介
約翰·D.凱萊赫(John D.Kelleher),現為愛爾蘭都柏林理工大學(Technological University Dublin)信息、通信和娛樂研究所教授和學術領導人。專業領域包括機器學習、數據科學、自然語言處理和人工智能。曾在多個不同的學術和研究機構工作,包括都柏林城市大學(Dublin City University)、歐洲媒體實驗室(Media Lab Europe)和德國人工智能研究中心(DFKI)。他在MIT出版社出版了三本機器學習和數據科學方面的著作,除了本書之外,另外兩本是《深度學習》(Deep Learning)和《數據科學》(Data Science)。
目錄大綱
譯者序
前言
符號
第一部分 機器學習和數據分析導論
第1章 面向預測數據分析的機器學習
1.1 什麼是預測數據分析
1.2 什麼是機器學習
1.3 機器學習是如何工作的
1.4 歸納偏差與采樣偏差
1.5 機器學習可能出現什麼問題
1.6 預測數據分析項目的生命周期:CRISP-DM
1.7 預測數據分析工具
1.8 未來之路
1.9 習題
第2章 從數據到見解再到決策
2.1 將業務問題轉化為分析解決方案
2.1.1 案例研究:汽車保險欺詐
2.2 評估可行性
2.2.1 案例研究:汽車保險欺詐
2.3 設計分析基礎表
2.3.1 案例研究:汽車保險欺詐
2.4 設計和實現特征
2.4.1 不同類型的數據
2.4.2 不同類型的特征
2.4.3 處理時間
2.4.4 法律問題
2.4.5 實現特征
2.4.6 案例研究:汽車保險欺詐
2.5 總結
2.6 延伸閱讀
2.7 習題
第3章 數據探索
3.1 數據質量報告
3.1.1 案例研究:汽車保險欺詐
3.2 了解數據
3.2.1 正態分布
3.2.2 案例研究:汽車保險欺詐
3.3 辨識數據質量問題
3.3.1 缺失值
3.3.2 不規則基數
3.3.3 異常值
3.3.4 案例研究:汽車保險欺詐
3.4 處理數據質量問題
3.4.1 處理缺失值
3.4.2 處理異常值
3.4.3 案例研究:汽車保險欺詐
3.5 高級數據探索
3.5.1 可視化特征之間的關系
3.5.2 度量協方差和相關性
3.6 數據準備
3.6.1 標準化
3.6.2 分箱
3.6.3 采樣
3.7 總結
3.8 延伸閱讀
3.9 習題
第二部分 預測數據分析
第4章 基於信息的學習
4.1 主要思想
4.2 基礎知識
4.2.1 決策樹
4.2.2 香農熵模型
4.2.3 信息增益
4.3 標準方法:ID3算法
4.3.1 實用範例:植被分布預測
4.4 擴展和變體
4.4.1 其他特征選擇和不純凈度度量
4.4.2 處理連續型描述性特征
4.4.3 預測連續型目標
4.4.4 樹剪枝
4.4.5 模型集成
4.5 總結
4.6 延伸閱讀
4.7 習題
第5章 基於相似性的學習
5.1 主要思想
5.2 基礎知識
5.2.1 特征空間
5.2.2 使用距離度量來衡量相似性
5.3 標準方法:最近鄰算法
5.3.1 實用範例
5.4 擴展和變體
5.4.1 處理噪聲數據
5.4.2 高效的內存搜索
5.4.3 數據標準化
5.4.4 預測連續型目標
5.4.5 其他相似性度量
5.4.6 特征選擇
5.5 總結
5.6 延伸閱讀
5.7 後記
5.8 習題
第6章 基於概率的學習
6.1 主要思想
6.2 基礎知識
6.2.1 貝葉斯定理
6.2.2 貝葉斯預測
6.2.3 條件獨立性和因子分解
6.3 標準方法:樸素貝葉斯模型
6.3.1 實用範例
6.4 擴展和變體
6.4.1 平滑處理
6.4.2 連續型特征:概率密度函數
6.4.3 連續型特征:分箱
6.4.4 貝葉斯網絡
6.5 總結
6.6 延伸閱讀
6.7 習題
第7章 基於誤差的學習
7.1 主要思想
7.2 基礎知識
7.2.1 簡單的線性回歸
7.2.2 測量誤差
7.2.3 誤差曲面
7.3 標準方法:使用梯度下降的多變量線性回歸
7.3.1 多變量線性回歸
7.3.2 梯度下降
7.3.3 選擇學習率和初始權重
7.3.4 實用範例
7.4 擴展和變體
7.4.1 解釋多變量線性回歸模型
7.4.2 使用權重衰減設置學習率
7.4.3 處理類別型描述性特征
7.4.4 處理類別型目標特征:logistic回歸
7.4.5 建模非線性關系
7.4.6 多項式logistic回歸
7.4.7 支持向量機
7.5 總結
7.6 延伸閱讀
7.7 習題
第8章 深度學習
8.1 主要思想
8.2 基礎知識
8.2.1 人工神經元
8.2.2 人工神經網絡
8.2.3 神經網絡的矩陣運算
8.2.4 為什麼非線性激活函數是必要的
8.2.5 為什麼網絡深度很重要
8.3 標準方法:反向傳播和梯度下降
8.3.1 反向傳播:算法的一般結構
8.3.2 反向傳播:誤差梯度的反向傳播
8.3.3 反向傳播:更新網絡中的權重
8.3.4 反向傳播:算法
8.3.5 實用範例:使用反向傳播訓練前饋網絡完成回歸任務
8.4 擴展和變體
8.4.1 梯度消失和ReLU
8.4.2 權重初始化和不穩定梯度
8.4.3 處理類別型目標特征:softmax輸出層和交叉熵損失函數
8.4.4 早停法和隨機失活:防止過擬合
8.4.5 卷積神經網絡
