Python機器學習系統構建(原書第3版) Building Machine Learning Systems with Python - Third edition

Luis Pedro Coelho, Wilhelm Richert, Matthieu Brucher 陳瑤//陳峰/ /劉旭斌

立即出貨

商品描述

本書涉及近期機器學習領域內的*新進展,通過對常用數據集的轉換和工具庫的使用,
幫助構建實用的機器學習系統。
內容包括如何在原始數據中準確發掘出模式。
先從回顧Python機器學習的知識開始,接著了解相關的工具庫。
可以快速掌握數據集上真實的項目,掌握建模方法,創建推薦系統。
全書共14章。第1章介紹機器學習和Python基礎知識;
第2章使用真實數據進行分類研究;
第3章解釋如何使用回歸算法處理數據;
第4章介紹如何使用logistic回歸來確定某個問題的用戶答案好不好;
第5章介紹數據降維技術;
第6章介紹聚類,並使用它來查找給定文本的類似新聞報導;
第7章介紹如何建立基於客戶產品評級的推薦系統;
第8章介紹神經網絡和深度學習相關的基本原理,以及使用TensorFlow進行CNN和RNN的示例;
第9章解釋樸素貝葉斯的工作原理,以及如何用它對tweet進行分類;
第10章介紹主題建模;
第11章和第12章分別講解如何對音樂和圖像進行分類;
第13章探索強化學習方法;
第14章介紹如何利用雲技術來構建更複雜的模型。

作者簡介

Matthieu Brucher

計算機科學家,擅長高性能計算和計算建模,目前就職於JPMorgan的量化研究小組。
他也是Audio Too JKif工具(一個實時音頻信號處理的工具庫)的主要開發者。
他博士畢業於斯特拉斯堡大學,研究方向是機器學習和信號處理,
並於巴黎第十一大學和法國高等電力大學取得兩個理學碩士學位——一個是數字電路和信號處理方向,
另一個是自動化方向。
他還取得了巴斯斯巴大學的音樂學碩士學位。

目錄大綱

目錄
前言
第1章Python機器學習入門1
1.1機器學習和Python—夢之隊1
1.1.1本書涵蓋的和未涵蓋的內容2
1.1.2如何最好地閱讀本書3
1.1.3遇到困難怎麼辦4
1.1.4入門指南5
1.1.5機器學習基礎10
1.1.6第一個機器學習的小應用11
1.2小結23

第2章使用現實示例進行分類24
2.1鳶尾花數據集24
2.1.1可視化是一個很好的開始25
2.1.2用scikit-learn分類25
2.1.3建立我們的第一個分類模型26
2.2評估—留出數據和交叉驗證27
2.3如何測量和比較分類器29
2.4更複雜的數據集和最近鄰分類器30
2.4.1了解種子數據集30
2.4.2特徵和特徵工程31
2.4.3最近鄰分類31
2.4.4查看決策邊界32
2.5使用哪個分類器35
2.6小結35

第3章回歸37
3.1用回歸方法預測房價走勢37
3.2多維屬性回歸40
3.3回歸中的交叉驗證41
3.3.1懲罰化或正則化回歸42
3.3.2 L1和L2懲罰項42
3.4在scikit-learn中使用Lasso或ElasticNet43
3.4.1 Lasso路徑的可視化44
3.4.2 P-greater-than-N場景45
3.4 .3一個基於文本文檔的例子45
3.4.4主流的超參設置方法47
3.5用TensorFlow實現回歸50
3.6小結54

第4章分類Ⅰ—檢測劣質答案55
4.1本章概覽55
4.2學習分類優質答案56
4.2. 1數據實例調整56
4.2.2分類器調優56
4.3數據獲取56
4.3.1將數據轉換為可用的數據塊58
4.3.2屬性的預選擇和處理58
4.3.3定義什麼是優質答案59
4.4創建我們的第一個分類器60
4.4.1特徵工程60
4.4.2訓練分類器61
4.4.3評價分類器的性能62
4.4.4設計更多的特徵62
4.5如何改進性能65
4.5.1偏置、方差和它們之間的平衡66
4.5.2修復高偏置66
4.5.3修復高方差66
4.5.4高偏置還是低偏置67
4.6使用logistic回歸69
4.6.1用一個小例子了解一些數學原理69
4.6.2將logistic回歸用於我們的帖子分類問題71
4.7探索準確率背後的細節—精度和召回73
4.8為分類器減負75
4.9整合分類器76
4.10用TensorFlow分類77
4.11小結82

第5章降維83
5.1本章概覽83
5.2選擇特徵84
5.2.1使用過濾器檢測冗餘特徵84
5.2. 2使用包裝法從模型中查詢特徵90
5.2.3其他特徵選擇方法93
5.3特徵投影93
5.3.1主成分分析93
5.3.2 PCA的局限性以及LDA如何提供幫助95
5.4多維縮放96
5.5用於降維的自動編碼器或神經網絡99
5.6小結103

第6章聚類—查找相關帖子105
6.1測量帖子間的相關性105
6.1.1不應該這麼做106
6.1.2應該怎麼做106
6.2預處理—將測量的相似性作為常用詞的相似數量107
6.2.1將原始文本轉換成詞袋107
6.2.2我們的成就和目標115
6.3聚類116
6.3.1 K-means 116
6.3.2獲取測試數據以評估我們的想法119
6.3.3聚類帖子120
6.4解決最初的挑戰120
6.5調整參數123
6.6小結123

第7章推薦系統125
7.1評級預測和推薦125
7.2切分訓練集和測試集127
7.3訓練數據歸一化127
7.4用最近鄰方法實現推薦129
7.5用回歸方法實現推薦132
7.6結合多種方法133
7.7購物籃分析135
7.7.1獲得有用的預測結果136
7.7.2分析超市購物籃137
7.8關聯規則挖掘140
7.9小結141

第8章人工神經網絡與深度學習143
8.1使用TensorFlow143
8.1.1 TensorFlow API 144
8.1.2圖144
8.1.3會話145
8.1.4有用的操作146
8.2保存和還原神經網絡147
8.2.1訓練神經網絡149
8.2.2卷積神經網絡149
8.2.3循環神經網絡156
8.3 LSTM用於文本預測157
8.4 LSTM用於圖像處理160
8.5小結162

第9章分類Ⅱ—情感分析163
9.1本章概覽163
9.2獲取Twitter數據163
9.3介紹樸素貝葉斯分類器164
9.3.1了解貝葉斯定理164
9.3.2簡單化165
9.3.3使用樸素貝葉斯進行分類166
9.3.4對未曾出現的和奇怪的單詞進行說明168
9.3.5對算術下溢進行說明169
9.4創建並優化第一個分類器171
9.4.1首先解決容易的問題171
9.4.2使用所有類173
9.4.3調整分類器參數175
9.5清理tweet179
9.6考慮單詞的類型180
9.6.1確定單詞類型181
9.6.2使用SentiWordNet成功作弊182
9.6.3我們的第一個評估器184
9.6.4把所有東西放在一起186
9.7小結187

第10章主題建模188
10.1隱含狄利克雷分配188
10.1. 1構建主題模型189
10.1.2按主題比較文檔193
10.1.3為整體維基百科建模195
10.1.4選擇主題數量197
10.2小結198

第11章分類III—音樂流派分類199
11.1本章概覽199
11.2獲取音樂數據199
11.3觀察音樂數據201
11.4使用FFT構建第一個分類器204
11.4.1增加實驗靈活性204
11.4.2訓練分類器205
11.4.3用混淆矩陣測試多類別問題的準確率207
11.4.4另一種用接收者-操作者特徵測量分類性能的方法209
11.5使用梅爾頻率倒譜係數改善分類器性能212
11.6用TensorFlow分類音樂215
11.7小結220

第12章計算機視覺222
12.1圖像處理簡介222
12.1.1加載和顯示圖像223