Python 數據挖掘入門與實踐 (Learning Data Mining with Python) Python数据挖掘入门与实践

羅伯特·萊頓 (Robert Layton)

  • 出版商: 人民郵電
  • 出版日期: 2016-07-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 252
  • 裝訂: 平裝
  • ISBN: 7115427100
  • ISBN-13: 9787115427106
  • 相關分類: Python程式語言Data-mining
  • 已絕版

買這商品的人也買了...

商品描述

<內容介紹>

《Python數據挖掘入門與實踐》一書作為數據挖掘入門讀物,介紹了數據挖掘的基礎知識、基本工具和實踐方法,通過循序漸進地講解算法,帶你輕鬆踏上數據挖掘之旅。本書採用理論與實踐相結合的方式,呈現瞭如何使用決策樹和隨機森林算法預測美國職業籃球聯賽比賽結果,如何使用親和性分析方法推薦電影,如何使用樸素貝葉斯算法進行社會媒體挖掘,等等。本書也涉及神經網絡、深度學習、大數據處理等內容。

<目錄>


第1章開始數據挖掘之旅1
1.1數據挖掘簡介1
1.2使用Python和IPython Notebook 2
1.2.1安裝Python 2
1.2.2安裝IPython 4
1.2.3安裝scikit-learn庫5
1.3親和性分析示例5
1.3 .1什麼是親和性分析5
1.3.2商品推薦6
1.3.3在NumPy中加載數據集6
1.3.4實現簡單的排序規則8
1.3.5排序找出最佳規則10
1.4分類問題的簡單示例12
1.5什麼是分類12
1.5.1準備數據集13
1.5.2實現OneR算法14
1.5.3測試算法16
1.6小結18
第2章用scikit-learn估計器分類19
2.1 scikit-learn估計器19
2.1.1近鄰算法20
2.1.2距離度量20
2.1.3加載數據集22
2.1.4努力實現流程標準化24
2.1.5運行算法24
2.1.6設置參數25
2.2流水線在預處理中的應用27
2.2.1預處理示例28
2.2.2標準預處理28
2.2.3組裝起來29
2.3流水線29
2.4小結30
第3章用決策樹預測獲勝球隊31
3.1加載數據集31
3.1.1採集數據31
3.1.2用pandas加載數據集32
3.1.3數據集清洗33
3.1.4提取新特徵34
3.2決策樹35
3.2.1決策樹中的參數36
3.2.2使用決策樹37
3.3 NBA比賽結果預測37
3.4隨機森林41
3.4.1決策樹的集成效果如何42
3.4.2隨機森林算法的參數42
3.4.3使用隨機森林算法43
3.4.4創建新特徵44
3.5小結45
第4章用親和性分析方法推薦電影46
4.1親和性分析46
4.1.1親和性分析算法47
4.1.2選擇參數47
4.2電影推薦問題48
4.2.1獲取數據集48
4.2.2用pandas加載數據49
4.2.3稀疏數據格式49
4.3 Apriori算法的實現50
4.3 .1 Apriori算法51
4.3.2實現52
4.4抽取關聯規則54
4.5小結60
第5章用轉換器抽取特徵62
5.1特徵抽取62
5.1.1在模型中表示事實62
5.1.2通用的特徵創建模式64
5.1 .3創建好的特徵66
5.2特徵選擇67
5.3創建特徵71
5.4創建自己的轉換器75
5.4.1轉換器API 76
5.4.2實現細節76
5.4.3單元測試77
5.4.4組裝起來79
5.5小結79
第6章使用樸素貝葉斯進行社會媒體挖掘80
6.1消歧80
6.1.1從社交網站下載數據81
6.1.2加載數據集並對其分類83
6.1.3 Twitter數據集重建87
6.2文本轉換器90
6.2.1詞袋91
6.2.2 N元語法92
6.2.3其他特徵93
6.3樸素貝葉斯93
6.3.1貝葉斯定理93
6.3.2樸素貝葉斯算法94
6.3.3算法應用示例95
6.4應用96
6.4.1抽取特徵97
6.4.2將字典轉換為矩陣98
6.4.3訓練樸素貝葉斯分類器98
6.4.4組裝起來98
6.4.5用F1值評估99
6.4.6從模型中獲取更多有用的特徵100
6.5小結102
第7章用圖挖掘找到感興趣的人104
7.1加載數據集104
7.1.1用現有模型進行分類106
7.1.2獲取Twitter好友信息107
7.1.3構建網絡110
7.1 .4創建圖112
7.1.5創建用戶相似度圖114
7.2尋找子圖117
7.2.1連通分支117
7.2.2優化參數選取準則119
7.3小結123
第8章用神經網絡破解驗證碼124
8.1人工神經網絡124
8.2創建數據集127
8.2.1繪製驗證碼127
8.2.2將圖像切分為單個的字母129
8.2.3創建訓練集130
8.2.4根據抽取方法調整訓練數據集131
8.3訓練和分類132
8.3. 1反向傳播算法134
8.3.2預測單詞135
8.4用詞典提升正確率138
8.4.1尋找最相似的單詞138
8.4.2組裝起來139
8.5小結140
第9章作者歸屬問題142
9.1為作品找作者142
9.1.1相關應用和使用場景143
9.1.2作者歸屬143
9.1.3獲取數據144
9.2功能詞147
9.2.1統計功能詞148
9.2.2用功能詞進行分類149
9.3支持向量機150
9.3.1用SVM分類151
9.3.2內核151
9.4字符N元語法152
9.5使用安然公司數據集153
9.5.1獲取安然數據集153
9.5.2創建數據集加載工具154
9.5.3組裝起來158
9.5.4評估158
9.6小結160
第10章新聞語料分類161
10.1獲取新聞文章161
10.1.1使用Web API獲取數據162
10.1.2數據資源寶庫reddit 164
10.1.3獲取數據165
10.2從任意網站抽取文本167
10.2.1尋找任意網站網頁中的主要內容167
10.2.2組裝起來168
10.3新聞語料聚類170
10.3.1 k-means算法171
10.3.2評估結果173
10.3.3從簇中抽取主題信息175
10.3.4用聚類算法做轉換器175
10.4聚類融合176
10.4.1證據累積176
10.4.2工作原理179
10.4.3實現180
10.5線上學習181
10.5.1線上學習簡介181
10.5.2實現182
10.6小結184
第11章用深度學習方法為圖像中的物體進行分類185
11.1物體分類185
11.2應用場景和目標185
11.3深度神經網絡189
11.3.1直觀感受189
11.3.2實現189
11.3.3 Theano簡介190
11.3.4 Lasagne簡介191
11.3 .5用nolearn實現神經網絡194
11.4 GPU優化197
11.4.1什麼時候使用GPU進行
計算198
11.4.2用GPU運行代碼198
11.5環境搭建199
11.6應用201
11.6.1獲取數據201
11.6.2創建神經網絡202
11.6.3組裝起來204
11.7小結205
第12章大數據處理206
12.1大數據206
12.2大數據應用場景和目標207
12.3 MapReduce 208
12.3.1直觀理解209
12.3.2單詞統計示例210
12.3.3 Hadoop MapReduce 212
12.4應用212
12.4.1獲取數據213
12.4.2樸素貝葉斯預測215
12.5小結226
附錄接下來的方向227