機器學習的統計基礎 : 深度學習背後的核心技術

黃志勝博士,施威銘研究室 監修

  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-1
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-2
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-3
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-4
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-5
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-6
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-7
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-8
  • 機器學習的統計基礎 : 深度學習背後的核心技術-preview-9
機器學習的統計基礎 : 深度學習背後的核心技術-preview-1

買這商品的人也買了...

商品描述

「作者在上市 IC 公司上班,每天面對 real world problems。探索如何建立輕量深度學習網路以及發展更有效率的學習方式是他每天的工作。這是一本學理及實務兼具的好工具書。」 - 中央研究院資訊科學研究所所長 廖弘源博士 推薦

[搭起 AI 與統計的橋樑]
原本統計學與人工智慧是兩個完全不同的領域,然而兩者在近代都有了新的發展進而產生連結。在人工智慧中導入機率與統計的觀念,讓電腦具有自己找出數據之間的關聯性並試圖解決問題的能力,因而出現機器學習 (machine learning) ,再加上電腦計算能力的大幅提升,解決多層類神經網路和大數據之間聯繫性的可能,進而衍生出現今最熱門的深度學習 (deep learning)。

不過,大部分電腦相關科系出身的人並不熟悉統計學,因此在更上一層樓的時候容易遇到障礙。有鑒於此,小編在推出《機器學習的數學基礎》(天瓏專業書店年度暢銷第一名) 一書之後,就積極開發 AI 與統計學相關的書籍。在尋尋覓覓之後請到擅長統計與機器學習的黃志勝博士出馬撰寫《機器學習的統計基礎》,首要之務就是讓讀者不要視統計為畏途,因此在書中設計大量範例以降低學習難度,務求讀得懂、做得出來才容易吸收,進而搭好統計與機器學習的橋樑。如果自覺數學已經還給老師了也不用擔心,可以將本書搭配《機器學習的數學基礎》一併完整學習。

[學會統計, 由混亂到清晰]
本書從讀者在高中就學過的集合與機率論開始,帶您快速複習一遍,並將容易混淆之處多多舉例說明,並將以前似懂非懂的隨機變數、機率分布等觀念再解釋得更清楚。接下來就進入專有名詞特別多的統計學,這也是造成許多人暈頭轉向之處。特別是樣本估計、信賴區間、顯著水準、信心水準、t-分布、假設檢定...等讓人一個頭兩個大的主題,更是務求清楚明瞭。當然本書不可能把完整的統計學全都搬進來,此處只介紹機器學習、深度學習需要用到的統計基礎知識,縮短您的學習時間。

然後就進入機器學習的重頭戲,從資料前處理到迴歸、分類模型的建立,以及當數據的特徵數過多時的 PCA、LDA 統計降維法。從類神經網路開始進入深度學習的範疇,包括前向傳遞、梯度下降法與倒傳遞學習法的手算實作,幫助讀者一步步建立深度學習的演算邏輯,並利用參數常規化解決模型過擬合 (over-fitting) 的問題。最後,導入模型評估,例如二元、多元分類模型評估指標、迴歸模型評估指標、4 種交叉驗證的方法,做為判斷模型好壞的參考依據。

相信讀者認真看完本書後,一定能建立起機器學習結合統計學的硬底子。當然這只是開端,期望讀者以本書為基石繼續前行。

本書特色:

1. 打好機率與統計的基礎,快速釐清讓人容易暈頭轉向的統計理論。
2. 藉由大量範例說明,務求讀得懂、做得出來,才容易吸收。
3. 作者提供專屬讀者天地, 以及機器學習方面的文章供後續學習。

作者簡介

黃志勝博士,高等教育經歷過管理學院 (統計資訊系)、理學院 (測驗統計研究所) 和工學院 (電控工程研究所),擔任過交通大學博士後研究員,也先後任職過兩間醫療新創公司,目前擔任新竹上市半導體公司的 AI 演算法小主管,同時也在大專院校擔任合聘助理教授。平日樂於分享統計學、機器學習或是深度學習相關知識,讀者可於 Medium (Tommy Huang) 獲得更多相關的學習資源:https://chih-sheng-huang821.medium.com/

目錄大綱

目錄:

第 1 章 機器與深度學習常用的數學基礎
1.1 數值資料表示方式
1.1.1 純量 (scalar)
1.1.2 向量 (vector)
1.1.3 矩陣 (matrix)
1.1.4 張量 (tensor)
1.2 向量與矩陣運算
1.2.1 向量和純量相乘
1.2.2 向量相乘
1.2.3 矩陣相乘
1.2.4 Hadamard 乘積
1.2.5 逆矩陣 (反矩陣)
1.3 矩陣分解
1.3.1 特徵分解 (Eigenvalue decomposition)
1.3.2 奇異值分解 (SVD)

第 2 章 機器學習相關機率論
2.1 集合
2.2 隨機試驗與樣本空間
2.2.1 隨機試驗範例
2.2.2 隨機試驗與公正與否
2.3 事件
2.3.1 基本事件與複合事件
2.3.2 事件空間
2.4 事件的機率
2.4.1 事件機率三大公理
2.4.2 事件機率相同的例子
2.4.3 事件機率不同的例子
2.4.4 事件機率運算規則
2.5 條件機率與貝氏定理
2.5.1 條件機率
2.5.2 貝氏定理
2.5.3 統計獨立
2.6 隨機變數
2.6.1 隨機變數的類型
2.6.2 多維隨機變數
2.7 機率分布與機率密度函數
2.7.1 機率分布
2.7.2 數位化都是離散型的隨機變數
2.7.3 一維機率密度函數
2.7.4 多維機率密度函數 (聯合機率密度函數)
2.7.5 邊際機率密度函數
2.8 機器學習常用到的統計機率模型
2.8.1 伯努利分布 (Bernoulli Distribution)
2.8.2 二項分布 (Binomial Distribution)
2.8.3 均勻分布 (Uniform Distribution)
2.8.4 常態分布 (Normal Distribution)

第 3 章 機器學習常用的統計學 (一)
3.1 資料結構分類
3.1.1 「正確的資料」與「好品質的資料」
3.1.2 結構化資料
3.1.3 非結構化資料
3.1.4 半結構化資料
3.2 將統計量作為資料的特徵表徵
3.2.1 期望值
3.2.2 各階中心動差
3.2.3 相關係數與共變異數
3.2.4 共變異數矩陣

第 4 章 機器學習常用的統計學 (二)
4.1 母體與樣本估計
4.1.1 樣本統計量與抽樣分布
4.1.2 樣本平均數的期望值等於母體平均數
4.1.3 樣本變異數的期望值等於母體變異數
4.1.4 小結
4.2 信賴區間
4.2.1 信賴區間與顯著水準、信心水準的關係
4.3 母體為常態分布的區間估計
4.31 常態分布的特性
4.3.2 將常態分布標準化:z-score
4.3.3 標準常態分布平均值的區間估計
4.3.4 每次抽樣都有不同的信賴區間
4.3.5 信賴區間的用途
4.4 自由度 (Degree of Freedom)
4.5 t-分布 (t-distribution)
4.5.1 t 值 (t-score):母體為常態,但標準差未知的情況
4.5.2 t 值與 z 值的關係
4.5.3 t-分布:隨機變數 t 的機率分布
4.6 抽樣數的選擇
4.6.1 母體數有無限個的情況
4.6.2 有限母體數的修正
4.7 假設檢定
4.7.1 假設檢定的預備知識
4.7.2 虛無假設、對立假設
4.7.3 檢定虛無假設成立的機率
4.7.4 計算橫軸上的 t 值
4.7.5 計算 p 值

第 5 章 機器學習常用的資料處理方式
5.1 資料標準化
5.1.1 Z 值標準化
5.1.2 Min-max 正規化
5.2 資料縮放
5.3 非線性轉換
5.3.1 對數函數能將數值範圍縮小
5.3.2 指數函數將數值轉換到特定範圍
5.3.3 非線性轉換較少用於資料前處理的原因
5.4 類別變數編碼
5.4.1 One-hot encoding
5.4.2 目標編碼 Target encoding

第 6 章 機器與深度學習常用到的基礎理論
6.1 機器、深度學習與統計學的關係
6.1.1 統計學與機器學習 (深度學習) 的差異
6.1.2 機器學習和深度學習的差異
6.2 監督式學習與非監督式學習
62.1 監督式學習 (Supervised Learning)
6.2.2 非監督式學習 (Unsupervised Learning)
6.3 最大概似估計
6.3.1 概似函數 (likelihood function)
6.3.2 範例:伯努利抽紅白球的機率
6.3.3 範例:常態分布找出平均值與變異數
6.4 貝氏法則理論與最大後驗機率
6.41 貝氏法則理論
6.4.2 最大後驗機率法
6.4.3 最大後驗機率法範例
6.5 常用到的距離和相似度計算方式
6.5.1 曼哈頓距離 (Manhattan Distance)
6.5.2 歐幾里得距離 (Euclidean Distance),歐氏距離
6.5.3 明可夫斯基距離 (Minkowski distance)
6.5.4 餘弦相似度 (Cosine similarity)
6.5.5 馬氏距離 (Mahalanobis Distance)
6.5.6 雅卡爾相似度係數 (Jaccard similarity coefficient)
6.6 損失函數
6.6.1 迴歸常用的損失函數:均方誤差、平均絕對值誤差
6.6.2 迴歸常用的損失函數:Huber 損失函數
6.6.3 分類常用的損失函數:交叉熵
6.6.4 交叉熵與相對熵、最大概似估計的關係

第 7 章 迴歸分析 Regression
7.1 簡單線性迴歸分析
7.1.1 用最小平方法找迴歸方程式
7.1.2 用最大概似函數估計法找迴歸方程式
7.2 多元線性迴歸分析
7.2.1 多元迴歸用向量與矩陣表示
7.2.2 用最小平方法求參數向量
7.3 非線性迴歸分析

第8章 分類 Classification
8.1 單純貝氏分類器 (Naive Bayes Classifier)
8.1.1 單純貝氏分類器的公式
8.1.2 高斯單純貝氏分類器
8.1.3 單純貝氏分類器的缺點與優點
8.2 線性區別分析 (LDA)
8.2.1 LDA 的概似函數
8.2.2 LDA 分類器公式
8.2.3 二分類的 LDA
8.3 羅吉斯迴歸 (Logistic Regression)
8.3.1 羅吉斯迴歸用 Sigmoid 函數限制值域
8.3.2 羅吉斯迴歸求參數的方法

第 9 章 統計降維法 Dimension Reduction
9.1 特徵數過多的問題
9.2 特徵選取法
9.2.1 刪除變異量最小的特徵資料
9.2.2 單一變數特徵選擇:迴歸任務
9.23 單一變數特徵選擇:分類任務
9.2.4 順序特徵選取
9.3 特徵萃取法
9.3.1 向量做投影空間轉換
9.3.2 PCA 主成分分析
9.3.3 LDA 線性區別分析
9.3.4 主成分分析 (PCA) 和線性區別分析 (LDA) 的差異

第 10 章 類神經網路 Artificial Neural Network
10.1 感知機神經網路 (Perceptron Neural Network)
10.1.1 常用的激活函數 (Activation function)
10.1.2 感知機神經網路運作範例
10.2 多層感知機神經網路 (Multilayer perceptron,MLP)
10.2.1 多層感知機神經網路與深度學習的區別
10.2.2 透過激活函數做到特徵非線性轉換
10.3 神經網路的前向傳遞
10.3.1 輸入層到隱藏層的前向傳遞
10.3.2 隱藏層到輸出層的前向傳遞

第 11 章 梯度下降法 Gradient Descent
11.1 梯度是微分的觀念
11.1.1 用微分找函數的極小值
11.1.2 離散資料用逼近的方式求解
11.1.3 梯度與梯度方向
11.2 梯度下降法的作法
11.2.1 梯度下降法的運算方式
11.2.2 學習率過大會無法收斂
11.2.3 學習率過小有可能只找到局部低點

第 12 章 倒傳遞學習法 Backpropagation
12.1 最小化損失函數以找出權重參數
12.2 隱藏層到輸出層的梯度
12.3 輸入層到隱藏層的梯度
12.4 前向傳遞與倒傳遞範例實作
12.4.1 前向傳遞計算預測值
12.4.2 用倒傳遞學習法反推以更新權重
12.4.3 用更新後的權重參數再做前向傳遞
12.5 梯度消失與梯度爆炸

第 13 章 參數常規化 Parameter Regularization
13.1 訓練擬合 (fitting) 的問題
13.2 損失函數加上懲罰項可避免過擬合
13.2.1 損失函數未加入懲罰項的範例
13.2.2 加入懲罰項做參數常規化的範例
13.2.3 λ 值對於常規化的影響
13.3 用懲罰項限制損失函數的求解範圍
13.4 常規化實際的解空間

第 14 章 模型評估 Model Validation
14.1 二元分類模型評估指標
14.1.1 二元分類的混淆矩陣
14.1.2 評估指標-正確率
14.1.3 評估指標-靈敏度、特異度
14.1.4 評估指標-偽陰性率、偽陽性率
14.1.5 評估指標-陽性預測值、陰性預測值
14.1.6 評估指標-陽性概似比、陰性概似比
14.1.7 評估指標-F1score 與 F(beta)score
14.1.8 評估指標-G-mean
14.1.9 算出所有的評估指標
14.1.10 ROC 曲線
14.2 多元分類評估指標
14.2.1 評估指標說明
14.2.2 多元評估指標範例
14.3 迴歸模型評估指標 (Regression Metrics)
14.3.1 三種評估指標-MSE、MAE、MSLE
14.3.2 MSLE 的優勢
14.4 交叉驗證:如何選取模型與模型評估
14.4.1 Resubstitution
14.4.2 Holdout CV
14.4.3 k-fold CV
14.4.4 Leave-one-out CV