Python 數據挖掘入門與實踐, 2/e

Robert Layton 亦念譯

  • Python 數據挖掘入門與實踐, 2/e-preview-1
  • Python 數據挖掘入門與實踐, 2/e-preview-2
Python 數據挖掘入門與實踐, 2/e-preview-1

買這商品的人也買了...

商品描述

本書以實踐為宗旨,對數據挖掘進行了詳細地入門引導。
本書囊括了比賽結果預測、電影推薦、特徵提取、好友推薦、破解驗證碼、
作者歸屬、新聞聚類等大量經典案例,並以此為基礎提供了大量練習和額外活動。
在練習中,本書介紹了數據挖掘的基本工具和基本方法;
在額外活動中,本書為深入了解數據挖掘指明了方向。
本書適合希望應用Python進行數據挖掘的程序員閱讀。  

作者簡介

Robert Layton

數據科學家,計算機科學博士,網絡犯罪問題和文本分析方面的專家。
擁有多年Python編程經驗,參與開發過scikit-learn庫等眾多開源軟件,曾
擔任2014年“谷歌編程之夏”項目導師,也曾多次在PyCon Au上做報告。
他創立了數據挖掘諮詢公司DataPipeline,以及為創業公司提供技術諮詢和支持的Eurekative公司,
還運營著LearningTensorFlow 網站。

目錄大綱

目錄:  
第1章數據挖掘入門1  
1.1什麼是數據挖掘1  
1.2使用Python和Jupyter Notebook 3  
1.2.1安裝Python 3  
1.2.2安裝Jupyter Notebook 4  
1.2.3安裝scikit-learn 5  
1.3親和性分析的簡單示例6  
1.4商品推薦6  
1.4.1用NumPy加載數據集7  
1.4.2實現規則的簡單排序9  
1.4.3挑選*佳規則11  
1.5分類的簡單示例13  
1.6什麼是分類14  
1.6.1準備數據集14  
1.6.2實現OneR算法15  
1.6.3測試算法功能17  
1.7本章小結19  

第2章用scikit-learn估計器解決分類問題20  
2.1 scikit-learn估計器20  
2.1.1 *近鄰算法21  
2.1.2距離度量22  
2.1.3加載數據集24  
2.1.4形成標準的工作流程25  
2.1.5運行算法26  
2.1.6設置參數27  
2.2預處理29  
2.2.1標準預處理30  
2.2.2組裝成型31  
2.3流水線31  
2.4本章小結32 
 
第3章用決策樹預測獲胜球隊34  
3.1加載數據集34  
3.1.1收集數據35  
3.1.2用pandas加載數據集35  
3.1.3清洗數據集36  
3.1.4提取新特徵37  
3.2決策樹39  
3.2.1決策樹的參數40  
3.2.2決策樹的使用41  
3.3體育賽事結果預測42  
3.4隨機森林45  
3.4 .1集成學習原理46  
3.4.2設置隨機森林的參數46  
3.4.3應用隨機森林47  
3.4.4創建特徵48  
3.5本章小結49  

第4章用親和性分析推薦電影50  
4.1親和性分析50  
4.1 .1親和性分析算法51  
4.1.2總體方法52  
4.2電影推薦問題52  
4.3 Apriori算法的原理與實現54  
4.3.1 Apriori算法的基本思路56  
4.3.2實現Apriori算法57  
4.3.3提取關聯規則59  
4.3.4評估關聯規則62  
4.4本章小結64  

第5章特徵與scikit-learn轉換器65  
5.1特徵提取65  
5.1.1用模型表述現實66  
5.1. 2常見的特徵模式68  
5.1.3創建好的特徵71  
5.2特徵的選取71  
5.3特徵創建76  
5.4主成分分析78  
5.5創建自己的轉換器80  
5.5.1轉換器API 81  
5.5.2實現轉換器81  
5.6單元測試82  
5.7組裝成型83  
5.8本章小結84  

第6章用樸素貝葉斯算法探索社交  
媒體85  
6.1消歧85  
6.2從社交媒體下載數據87  
6.2.1加載數據集並分類89  
6.2.2創建可重現的Twitter數據集92  
6.3文本轉換器95  
6.3.1詞袋模型95  
6.3.2 n元語法特徵96  
6.3.3其他文本特徵97  
6.4樸素貝葉斯98  
6.4.1理解貝葉斯定理98  
6.4.2樸素貝葉斯算法99  
6.4.3原理展示100  
6.5樸素貝葉斯的應用101  
6.5.1提取單詞計數102  
6.5.2把字典轉換成矩陣103  
6.5.3組裝成型103  
6.5.4用F1-score評估算法104  
6.6從模型中找出有用的特徵105  
6.7本章小結107 
 
第7章用圖挖掘實現推薦關注109  
7.1加載數據集109  
7.2從Twitter獲取關注者信息113  
7.3創建圖116  
7.4尋找子圖122  
7.4.1連通分量122  
7.4.2優化準則125  
7.5本章小結127  

第8章用神經網絡識別驗證碼129  
8.1人工神經網絡130  
8.2創建數據集132  
8.2.1繪製簡單的驗證碼133  
8.2.2按字母分割圖像135  
8.2.3創建訓練數據集137  
8.3訓練與分類139  
8.4預測單詞143  
8.4.1用詞典提升準確率146  
8.4.2單詞相似度的排名機制146  
8.4.3組裝成型147  
8.5本章小結148  

第9章作者歸屬問題149  
9.1文檔的作者歸屬149  
9.1.1應用與場景150  
9.1 .2作者歸屬151  
9.2獲取數據152  
9.3功能詞的使用155  
9.3.1統計功能詞156  
9.3.2用功能詞分類158  
9.4支持向量機159  
9.4.1用支持向量機分類160  
9.4.2核函數160  
9.5字符n元語法161  
9.6安然(Enron)數據集162  
9.6.1獲取安然數據集163  
9.6.2創建數據集加載函數163  
9.7組裝成型166  
9.8評估166  
9.9本章小結168  

第10章聚類新聞文章169  
10.1發現熱門話題169  
10.1.1用Web API獲取數據170  
10.1.2把reddit作為數據源172  
10.1.3獲取數據173  
10.2從任意網站提取文本175  
10.2.1尋找任意網站中的新聞報導內容176  
10.2.2提取內容177  
10.3為新聞文章分組179  
10.4 k-均值算法179  
10.4.1評估結果182  
10.4.2從聚類簇中提取話題信息184  
10.4.3把聚類算法作為轉換器185  
10.5聚類集成185  
10.5.1證據積累方法185  
10.5.2工作原理188  
10.5.3算法實現190  
10.6在線學習191  
10.7本章小結194  

第11章用深度神經網絡實現圖像中的對象檢測195  
11.1對象分類195  
11.2應用場景197  
11.3深度神經網絡199  
11.3.1直觀感受199  
11.3.2實現深度神經網絡200  
11.4 TensorFlow簡介201  
11.5使用Keras 204  
11.6 GPU優化210  
11.6.1適用GPU的計算場景211  
11.6.2在GPU上運行代碼212  
11.6.3設置環境213  
11.7應用214  
11.7.1獲取數據214  
11.7.2創建神經網絡215  
11.7.3組裝成型216  
11.8本章小結217  

第12章大數據處理219  
12.1大數據219  
12.2 MapReduce 222  
12.2.1直觀感受223  
12.2.2 Hadoop MapReduce 226  
12.3應用MapReduce 227  
12.4樸素貝葉斯預測229  
12.5提取博客文章229  
12.6訓練樸素貝葉斯231  
12.7組裝成型235  
12.8在亞馬遜EMR基礎設施上訓練239  
12.9本章小結241  
附錄A下一步工作242  
A.1數據挖掘入門242  
A.1.1 scikit-learn教程242  
A.1.2擴展Jupyter Notebook 242  
A.1.3更多數據集243  
A.1.4其他評估指標243  
A.1.5更多應用思路243  
A.2用scikit-learn估計器解決分類問題243  
A.2.1 *近鄰算法的伸縮性244  
A.2.2更複雜的流水線244  
A.2.3比較分類器244  
A.2.4自動學習244  
A.3用決策樹預測獲胜球隊245  
A.3.1更複雜的特徵245  
A.3.2 Dask 246  
A.3.3研究246  
A.4用親和性分析推薦電影246  
A.4.1新數據集246  
A.4.2等價類變換算法246  
A.4.3協同過濾247  
A.5特徵與scikit-learn轉換器247  
A.5.1增加噪聲247  
A.5.2 Vowpal Wabbit 247  
A.5.3 word2vec 247  
A.6用樸素貝葉斯算法探索社交媒體247  
A.6.1垃圾信息檢測248  
A.6.2自然語言處理與詞性標註248  
A.7用圖挖掘實現推薦關注248  
A.7.1更複雜的算法248  
A.7.2 NetworkX 248  
A.8用神經網絡識別驗證碼249  
A.8.1更好(更壞?)的驗證碼249  
A.8.2深度神經網絡249  
A.8.3強化學習249  
A.9作者歸屬問題249  
A.9.1增大樣本250  
A.9.2博客數據集250  
A.9.3局部n元語法250  
A.10聚類新聞文章250  
A.10.1聚類的評估250  
A.10.2時域分析251  
A.10.3實時聚類251  
A.11用深度神經網絡實現圖像中的對象檢測251  
A.11.1 Mahotas 251  
A.11.2 Magenta 251  
A.12大數據處理252  
A.12.1 Hadoop課程252  
A.12.2 Pydoop 252  
A.12.3推薦引擎252  
A.12.4 WILL 252  
A.13更多資源253  
A.13.1 Kaggle競賽253  
A.13.2 Coursera 253