機器學習與數據科學中的優化算法

Stephen J. Wright

相關主題

商品描述

在人工智能與大數據時代,優化算法已成為機器學習與數據科學的核心支柱。本書以獨特的應用視角,將抽象的數學理論與實際工程問題緊密結合,為讀者架起了一座從理論到實踐的橋梁。 本書由優化領域 學者Stephen J. Wright和Benjamin Recht撰寫,旨在為讀者提供一本條理清晰、系統全面的優化技術指南,尤其聚焦數據科學與機器學習領域的核心優化技術。書中詳細闡述了基本優化算法,並分析了它們的收斂性和覆雜度。全書共11章,第1章通過典型案例闡釋優化在現代數據分析中的應用;第2~10章深入剖析多種核心算法,包括加速梯度法、隨機梯度法(機器學習的核心算法)、坐標下降法(高效處理高維問題的利器)、簡單約束問題的梯度法、具有非平滑項的凸優化問題的理論和算法,以及約束優化問題的對偶方法; 1章拓展至深度學習與控制領域的梯度計算方法(如自動微分、反向傳播的優化視角)。

作者簡介

斯蒂芬·J. 賴特 (Stephen J. Wright) 現任威斯康星大學麥迪遜分校George B. Dantzig教授、 Sheldon Lubar講席教授,以及 Amar和Balinder Sohi計算機科學教授,同時擔任威斯康星州發現研究所(Wisconsin Institute for Discovery)的研究員。他主要研究計算優化及其在數據科學和科學工程其他領域的應用。他是美國工業與應用數學學會(SIAM)會士,曾獲2014年IEEE W. R. G. Baker傑出論文獎、2020年INFORMS優化學會Khachiyan終身成就獎以及2020年NeurIPS時間檢驗獎。他著有多部優化領域經典教材與參考書,包括Primal Dual Interior-Point Methods(1987)和Numerical Optimization(2006)。 本傑明·雷希特 (Benjamin Recht) 加州大學伯克利分校電氣工程與計算機科學系副教授。其研究團隊致力於通過運用優化、統計和動力系統的數學工具,提升機器學 統在動態不確定環境中的穩健性。他曾獲總統科學家與工程師早期職業獎、Alfred P. Sloan研究獎、2012年SIAM/MOS拉格朗日連續優化獎、2014年Jamon獎、2015年William O. Baker研究倡議獎,以及2017年和2020年NeurIPS時間檢驗獎。

目錄大綱

譯者序
前言
第1章 概述1
1.1 數據分析和優化1
1.2  小二乘法3
1.3 矩陣因子分解問題4
1.4 支持向量機5
1.5 邏輯回歸8
1.6 深度學習9
1.7 重點11
註釋和參考12
第2章 平滑優化的基礎13
2.1 優化問題的解的分類13
2.2 泰勒定理14
2.3 刻畫平滑函數的 小值16
2.4 凸集和函數18
2.5 強凸函數20
註釋和參考22
習題22
第3章 下降法24
3.1 下降方向24
3.2  速下降法25
3.2.1 一般情況26
3.2.2 凸函數情況27
3.2.3 強凸函數情況28
3.2.4 收斂速率的比較30
3.3 下降法:收斂性31
3.4 線搜索法:方向選擇33
3.5 線搜索法:步長選擇35
3.6?收斂到近似的二階必要點40
3.7 鏡像下降42
3.8 KL和PL屬性47
註釋和參考48
習題48
第4章 使用動量的梯度法51
4.1 來自微分方程的啟發52
4.2 Nesterov法:凸二次方程53
4.3 強凸函數的收斂性58
4.4 弱凸函數的收斂性61
4.5 共軛梯度法64
4.6 收斂速率的下界66
註釋和參考67
習題68
第5章 隨機梯度法71
5.1 示例與啟發72
5.1.1 噪聲梯度72
5.1.2 增量梯度法73
5.1.3 分類和感知器73
5.1.4 經驗風險 小化74
5.2 隨機性和步長:深入分析75
5.2.1 示例:計算均值76
5.2.2 隨機Kaczmarz法77
5.3 收斂分析的關鍵假設80
5.3.1 案例1:有界梯度(Lg=0)81
5.3.2 案例2:隨機Kaczmarz
(B=0, Lg=0)81
5.3.3 案例3:加性高斯噪聲82
5.3.4 案例4:增量梯度82
5.4 收斂分析83
5.4.1 案例1:Lg=084
5.4.2 案例2:B=086
5.4.3 案例3:B和Lg都非零87
5.5 實施方面的問題89
5.5.1 輪次89
5.5.2 迷你批量處理89
5.5.3 使用動量加速90
註釋和參考90
習題91
第6章 坐標下降法95
6.1 機器學習中的坐標下降法96
6.2 平滑凸函數的坐標下降法98
6.2.1 利普希茨常數98
6.2.2 隨機坐標下降法:有放回
抽樣99
6.2.3 循環坐標下降法105
6.2.4 隨機排列坐標下降法:無放回抽樣107
6.3 塊坐標下降法107
註釋和參考109
習題110
第7章 約束優化的一階方法112
7.1  性條件112
7.2 歐幾裏得投影114
7.3 投影梯度算法116
7.3.1 一般情況:一種短步法117
7.3.2 一般情況:回溯法118
7.3.3 平滑強凸情形119
7.3.4 動量變體120
7.3.5 其他搜索方向120
7.4 條件梯度(Frank-Wolfe)法121
註釋和參考123
習題124
第8章 非平滑函數和次梯度126
8.1 次梯度和次微分127
8.2 次微分和方向導數131
8.3 次微分運算134
8.4 凸集和凸約束優化137
8.5 覆合非平滑函數的 性條件139
8.6 近端算子和莫羅包絡141
註釋和參考143
習題143
第9章 非平滑優化方法145
9.1 次梯度下降146
9.2 次梯度法148
9.3 正則化優化的近端梯度法151
9.4 結構化非平滑函數的近端坐標
下降法156
9.5 近端點法158
註釋和參考159
習題159
0章 對偶性和算法161
10.1 二次懲罰函數161
10.2 拉格朗日函數和對偶性162
10.3 一階 性條件165
10.4 強對偶168
10.5 對偶算法170
10.5.1 對偶次梯度170
10.5.2 增廣拉格朗日函數法170
10.5.3 交替方向乘數法172
10.6 對偶算法的一些應用173
10.6.1 共識優化173
10.6.2 效用 化175
10.6.3 線性和二次規劃176
註釋和參考177
習題178
1章 微分和伴隨179
11.1 向量函數嵌套組合的鏈式法則179
11.2 伴隨法181
11.3 深度學習中的伴隨182
11.4 自動微分183
11.5 通過拉格朗日函數和隱函數定理
推導185
11.5.1 漸進式函數的約束優化
 公式186
11.5.2 無約束和約束公式的一般
 觀點187
11.5.3 擴展:控制188
註釋和參考188
習題189
附  錄 一些背景信息190
參考文獻209
本書由威斯康星大學Stephen J. Wright與加州大學伯克利分校Benjamin Recht教授聯袂撰寫,內容源自兩所名校機器學習與優化課程講義,經多年教學實踐打磨而成。全書系統闡述數據分析與機器學習中的優化理論,涵蓋梯度法、隨機梯度法、坐標下降法等核心算法,並深入講解深度學習中的梯度計算方法。每章配備習題,理論與實踐緊密結合,既適合作為高年級本科生及低年級研究生教材,也適合作為機器學習工程師與科研人員的重要參考資料。譯本由Airbnb和Meta 機器學習工程師精心翻譯,著譯雙馨。