從統計思維出發 - 用 Python 實作的機器學習範例

董平 著

買這商品的人也買了...

商品描述

  1. 機器學習的靈魂:以統計數學為核心說明
  2. 全書圖解及歷史來龍去脈完整說明
  3. 從步入監督學習之旅開始
  4. 最精要的線性迴歸模型
  5. 完整講解K近鄰及貝氏推論
  6. 邏輯迴歸模型及最大熵模型
  7. 決策樹,感知機及支援向量機
  8. EM演算法及Boosting提升方法

 

統計機器學習之旅,從監督學習開始,透過分析已標記的資料集訓練模型,使預測未知資料。最基礎的就是線性迴歸。進一步深入,K近鄰(K-NN)演算法和貝氏推論是統計機器學習中的兩大核心技術。

之後則說明邏輯迴歸模型和最大熵模型,兩者專注於分類問題。決策樹、感知機和支援向量機(SVM)則代表了更進階的機器學習模型。決策樹通過構建樹狀結構來進行決策,其直觀性和易於理解的特點使其在解釋性要求較高的場景中非常受歡迎。感知機是一種二分類線性分類器,支援向量機則是一種強大的分類器,透過在特徵空間中找到一個最優分割平面來分離不同類別的數據。

最後,EM(期望最大化)演算法和Boosting方法是提升模型性能的高級技術。EM算法通過迭代最佳化來處理。

作者簡介

董平(博士)

上海對外經貿大學統計與信息學院講師。曾獲概率論與數理統計理學博士學位(山東大學2018)、理學學士學位和經濟學學士學位(山東大學2012);美國邁阿密大學訪問學者。主要研究領域為高維數據、假設檢驗、半監督回歸、統計機器學習等。參與多項科研項目和工程類項目,主持多項校級課程建設項目,曾獲第三屆上海市高校教師教學創新大賽二等獎。

目錄大綱

緒論

0.1本書講什麼,初衷是什麼

0.2貫穿本書的兩大思維模式

0.3這本書決定它還想要這樣

0.4如何使用本書

 

1 步入監督學習之旅

1.1機器學習從資料開始

1.2監督學習是什麼

1.3如何評價模型的好壞

1.4損失最小化思想

1.5怎樣理解模型的性能:方差 偏差折中思想

1.6如何選擇最佳模型

1.7本章小結

1.8 習題

 

2 線性迴歸模型

2.1探尋線性迴歸模型

2.2最小平方法

2.3線性迴歸模型的預測

2.4擴充部分:嶺迴歸與套索迴歸

2.5案例分析——共用單車資料集

2.6本章小結

2.7 習題

 

3 K 近鄰模型

3.1鄰友思想

3.2K 近鄰演算法

3.3最近鄰分類器的誤差率

3.4k 維樹

3.5擴充部分:距離度量學習的 K 近鄰分類器

3.6案例分析——鶯尾花資料集

3.7本章小結

3.8 習題

 

4 貝氏推斷

4.1貝氏思想

4.2貝氏分類器

4.3如何訓練貝氏分類器

4.4常用的單純貝氏分類器

4.5擴充部分

4.6案例分析——蘑菇資料集

4.7本章小結

4.8 習題

4.9 閱讀時間:貝氏思想的起源

 

5 邏輯迴歸模型

5.1一切始於邏輯函式

5.2邏輯迴歸模型的學習

5.3邏輯迴歸模型的學習演算法

5.4擴充部分

5.5案例分析——離職資料集

5.6本章小結

5.7 習題

5.8 閱讀時間:牛頓法是牛頓提出的嗎

 

6 最大熵模型

6.1問世間熵為何物

6.2最大熵思想

6.3最大熵模型的學習問題

6.4模型學習的最最佳化演算法

6.5案例分析——湯圓小例子

6.6本章小結

6.7 習題

6.8 閱讀時間:奇妙的對數

 

7 決策樹模型

7.1決策樹中蘊含的基本思想

7.2決策樹的特徵選擇

7.3 決策樹的生成演算法

7.4 決策樹的剪枝過程

7.5 擴充部分:隨機森林

7.6 案例分析——帕爾默企鵝資料集

7.7 本章小結

7.8 習題

7.9 閱讀時間:經濟學中的基尼指數

 

8 感知機模型

8.1感知機制——從邏輯迴歸到感知機

8.2感知機的學習

8.3感知機的最佳化演算法

8.4案例分析——鶯尾花資料集

8.5本章小結

8.6 習題

 

9 支援向量機

9.1從感知機到支援向量機

9.2線性可分支援向量機

9.3線性支援向量機

9.4非線性支援向量機

9.5SMO 最佳化方法

9.6案例分析——電離層資料集

9.7本章小結

9.8 習題

 

10 EM 演算法

10.1極大似然法與 EM 演算法

10.2EM 演算法的迭代過程

10.3EM 演算法的應用

10.4本章小結

10.5 習題

 

11 提升方法

11.1提升方法Boosting是一種整合學習方法

11.2起步於 AdaBoost 演算法

11.3提升樹和 GBDT 演算法

11.4擴充部分:XGBoost 演算法

11.5案例分析——波士頓房價資料集

11.6本章小結

11.7 習題

 

參考文獻

 

附錄-小冊子

1 微積分小工具

1.1 凸函式與凹函式

1.2 幾個重要的不等式

1.3 常見的求導公式與求導法則

1.4 泰勒公式

1.5 費馬原理

 

2 線性代數小工具

2.1 幾類特殊的矩陣

2.2 矩陣的基本運算

2.3 二次型的矩陣表示

 

3 機率統計小工具

3.1 隨機變數

3.2 機率分佈

3.3 數學期望和方差

3.4 常用的幾種分佈

3.5 小技巧—從二項分佈到正態分佈的連續修正

 

4 最佳化小工具

4.1 梯度下降法

4.2 牛頓法

4.3 擬牛頓法

4.4 座標下降法

4.5 拉格朗日對偶思想