機器學習實踐:數據科學應用與工作流的開發及優化

Andrew Kelleher ,Adam Kelleher 陳子墨劉瀚文譯譯

買這商品的人也買了...

相關主題

商品描述

本書以作者在BuzzFeed的工作經驗為基礎,
將機器學習和計算機工程巧妙地結合在一起。
第壹部分的基本原則是數據科學世界堅實的基礎;
第二部分介紹現實問題中的常用算法,幫助讀者迅速解決實際問題,
避免被數據誤導、產生結論錯誤;
第三部分則著眼於工程實踐,基於工程角度突破瓶頸,
讓算法能夠在現實條件中得以實現。

目錄大綱

譯者序

前言
作者簡介
第一部分框架原則
第1章數據科學家的定位2
1.1引言2
1.2數據科學家扮演的角色2
1.2.1公司規模3
1.2.2團隊背景3
1.2.3職業晉升和發展4
1.2 .4重要性5
1.2.5工作細分5
1.3結論5

第2章項目流程7
2.1引言7
2.2數據團隊背景7
2.2.1專門崗位與資源池8
2.2.2研究分析8
2.2.3原型設計9
2.2.4集成的工作流10
2.3敏捷開發與產品定位10
2.4結論15

第3章量化誤差16
3.1引言16
3.2量化測量值的誤差16
3.3抽樣誤差18
3.4誤差傳遞20
3.5結論22

第4章數據編碼與預處理23
4.1引言23
4.2簡單文本預處理24
4.2.1分詞24
4.2.2 n元模型26
4.2.3稀疏26
4.2.4特徵選擇27
4.2.5表示學習29
4.3信息量損失31
4.4結論33

第5章假設檢驗34
5.1引言34
5.2什麼是假設34
5.3假設檢驗的錯誤類型36
5.4 p值和置信區間37
5.5多重測試和p值操控38
5.6實例39
5.7假設檢驗的設計40
5.8結論41

第6章數據可視化43
6.1引言43
6.2數據分佈和匯總統計43
6.2.1數據分佈和直方圖44
6.2.2散點圖和熱力圖48
6.2.3箱線圖和誤差條52
6.3時間序列圖54
6.3.1移動統計54
6.3.2自相關56
6.4圖可視化57
6.4.1佈局算法57
6.4.2時間複雜度59
6.5結論60

第二部分算法與架構
第7章算法和架構簡介62
7.1引言62
7.2架構64
7.2.1服務64
7.2.2數據源65
7.2.3分批及在線計算66
7.2.4規模擴展66
7.3模型67
7.3.1訓練68
7.3.2預測68
7.3.3驗證69
7.4結論70

第8章距離度量71
8.1引言71
8.2 Jaccard距離71
8.2.1算法72
8.2.2時間複雜度73
8.2.3內存注意事項73
8.2.4分佈式方法73
8.3 MinHash 74
8.3.1假設75
8.3.2時空複雜度75
8.3.3工具75
8.3.4分佈式方法75
8.4餘弦相似度76
8.4.1複雜度78
8.4.2內存注意事項78
8.4.3分佈式方法78
8.5馬氏距離78
8.5.1複雜度79
8.5.2內存注意事項79
8.5.3分佈式方法79
8.6結論80

第9章回歸81
9.1引言81
9.1.1選擇模型82
9.1.2選擇目標函數82
9.1.3模型擬合83
9.1.4模型驗證84
9.2線性最小二乘87
9.2.1假設88
9.2.2複雜度89
9.2.3內存注意事項89
9.2.4工具89
9.2.5分佈式方法89
9.2.6實例90
9.3線性回歸中的非線性回歸97
9.4隨機森林100
9.4.1決策樹100
9.4.2隨機森林103
9.5結論106

第10章分類和聚類107
10.1引言107
10.2邏輯回歸108
10.2.1假設111
10.2.2時間複雜度111
10.2.3內存注意事項112
10.2.4工具112
10.3貝葉斯推斷與朴素貝葉斯112
10.3.1假設114
10.3.2複雜度114
10.3.3內存注意事項114
10.3.4工具114
10.4 K-Means 115
10.4.1假設118
10.4.2複雜度118
10.4.3內存注意事項118
10.4.4工具118
10.5最大特徵值118
10.5.1複雜度120
10.5.2內存注意事項120
10.5.3工具120
10.6 Louvain貪心算法120
10.6.1假設121
10.6.2複雜度121
10.6.3內存注意事項121
10.6.4工具121
10.7最近鄰算法121
10.7.1假設123
10.7.2複雜度123
10.7.3內存注意事項123
10.7.4工具123
10.8結論123

第11章貝葉斯網絡125
11.1引言125
11.2因果圖、條件獨立和馬爾可夫126
11.2.1因果圖和條件獨立126
11.2.2穩定性和依賴性127
11.3 d分離和馬爾可夫性質128
11.3.1馬爾可夫和因式分解128
11.3.2 d分離129
11.4貝葉斯網絡的因果圖132
11.5模型擬合133
11.6結論136

第12章降維與隱變量模型137
12.1引言137
12.2先驗137
12.3因子分析139
12.4主成分分析140
12.4 .1複雜度142
12.4.2內存注意事項142
12.4.3工具142
12.5獨立成分分析142
12.5.1假設145
12.5.2複雜度145
12.5.3內存注意事項146
12.5.4工具146
12.6 LDA主題模型146
12.7結論152

第13章因果推斷153
13.1引言153
13.2實驗154
13.3觀測值:一個實例157
13.4非因果阻斷控制法163
13.5機器學習估計量167
13.5.1重新審視G公式167
13.5.2實例168
13.6結論172

第14章高級機器學習173
14.1引言173
14.2優化173
14.3神經網絡175
14.3.1神經網絡層176
14.3.2神經網絡容量177
14.3.3過擬合179
14.3.4批擬合183
14.3.5損失函數183
14.4結論185

第三部分瓶頸和優化
第15章硬件基礎188
15.1引