數據科學實戰入門 使用Python和R

[法] 尚塔爾·D·拉羅斯(Chantal D. Larose), 丹尼爾·T·拉羅斯(Daniel T. Larose) 著 王海濤,宋麗華,邢長友 譯

  • 數據科學實戰入門 使用Python和R-preview-1
  • 數據科學實戰入門 使用Python和R-preview-2
  • 數據科學實戰入門 使用Python和R-preview-3
數據科學實戰入門 使用Python和R-preview-1

買這商品的人也買了...

商品描述

《數據科學實戰入門 使用Python和R》一書將使你深入瞭解數據科學最流行的兩大開源平臺:Python和R。   當前數據科學非常熱門。Python和R是世界更流行的兩個開源數據科學工具。在本書中,你將逐步學習如何使用更先進的技術,針對現實世界的業務問題提供切實可行的解決方案。   本書為沒有數據分析和編程經驗的讀者編寫。第1章專門為初學者講解Pyhton和R的基礎知識。此後的每一章都提供了使用Python和R解決數據科學問題的分步說明和實踐演練。   對於那些有數據分析經驗的讀者而言,他們將一站式學習如何使用Python和R進行數據科學實踐。本書的主題涵蓋數據準備、探索性數據分析、準備建模數據、決策樹、模型評估、錯誤分類代價、樸素貝葉斯分類、神經網絡、聚類、回歸建模、降維和關聯規則挖掘。此外,本書還包含一些令人興奮的新主題,如隨機森林和廣義線性模型。   本書在每章的結尾提供了大量的練習,共有500多道習題。通過實踐性的分析習題,讀者將能輕松應對使用真實數據集解決有趣業務問題的挑戰。

目錄大綱

目    錄

第1章  數據科學導引  1

1.1  為何學習數據科學  1

1.2  何為數據科學  1

1.3  數據科學方法論  2

1.4  數據科學任務  5

1.4.1  描述  5

1.4.2  估計  6

1.4.3  分類  6

1.4.4  聚類  6

1.4.5  預測  6

1.4.6  關聯  7

1.5  習題  7

第2章  Python和R語言基礎  9

2.1  下載Python  9

2.2  Python編程基礎  10

2.2.1  在Python中使用註釋  10

2.2.2  在Python中執行命令  11

2.2.3  在Python中導入軟件包  11

2.2.4  將數據引入Python  12

2.2.5  在Python中保存輸出  13

2.2.6  訪問Python中的記錄和變量  14

2.2.7  在Python中設置圖形  16

2.3  下載R和RStudio  18

2.4  R語言編程基礎  19

2.4.1  在R中使用註釋  20

2.4.2  在R中執行命令  20

2.4.3  在R中導入軟件包  20

2.4.4  將數據導入R  21

2.4.5  在R中保存輸出  23

2.4.6  在R中訪問記錄和變量  24

2.5  習題  26

第3章  數據準備  29

3.1  銀行營銷數據集  29

3.2  問題理解階段  29

3.2.1  明確闡明項目目標  29

3.2.2  將這些目標轉化為數據科學問題  30

3.3  數據準備階段  30

3.4  添加索引字段  31

3.4.1  如何使用Python添加索引字段  31

3.4.2  如何使用R添加索引字段  32

3.5  更改誤導性字段值  33

3.5.1  如何使用Python更改誤導性字段值  33

3.5.2  如何使用R更改誤導性字段值  35

3.6  將分類數據重新表示為數字  36

3.6.1  如何使用Python重新表達分類字段值  37

3.6.2  如何使用R重新表達分類字段值  38

3.7  標準化數字字段  39

3.7.1  如何使用Python標準化數字字段  40

3.7.2  如何使用R標準化數字字段  40

3.8  識別異常值  40

3.8.1  如何使用Python識別異常值  41

3.8.2  如何使用R識別異常值  42

3.9  習題  43

第4章  探索性數據分析  47

4.1  EDA對比HT  47

4.2  疊加了response的條形圖  47

4.2.1  如何使用Python構建疊加的條形圖  49

4.2.2  如何使用R構建疊加的條形圖  50

4.3  列聯表  51

4.3.1  如何使用Python構建列聯表  52

4.3.2  如何使用R構建列聯表  53

4.4  疊加有響應的柱狀圖  54

4.4.1  如何使用Python構建疊加柱狀圖  55

4.4.2  如何使用R構建疊加柱狀圖  58

4.5  基於預測值的分箱  59

4.5.1  如何使用Python基於預測值執行分箱  61

4.5.2  如何使用R基於預測值執行分箱  63

4.6  習題  64

第5章  為建模數據做準備  69

5.1  迄今完成的任務  69

5.2  數據分區  69

5.2.1  如何使用Python對數據進行分區  70

5.2.2  如何使用R對數據進行分區  71

5.3  驗證數據分區  72

5.4  平衡訓練數據集  73

5.4.1  如何使用Python平衡訓練數據集  73

5.4.2  如何使用R平衡訓練數據集  75

5.5  建立模型性能基準  76

5.6  習題  78

第6章  決策樹  81

6.1  決策樹簡介  81

6.2  分類與回歸樹  83

6.2.1  如何使用Python構建CART決策樹  83

6.2.2  如何使用R構建CART決策樹  86

6.3  用於構建決策樹的C5.0算法  88

6.3.1  如何使用Python構建C5.0決策樹  89

6.3.2  如何使用R構建C5.0決策樹  90

6.4  隨機森林  91

6.4.1  如何使用Python構建隨機森林  92

6.4.2  如何使用R構建隨機森林  92

6.5  習題  93

第7章  模型評估  97

7.1  模型評估簡介  97

7.2  分類評價措施  97

7.3  靈敏度和特異度  99

7.4  精確度、召回率和Fβ分數  99

7.5  模型評估方法  100

7.6  模型評估的應用示例  100

7.7  說明不對稱的錯誤成本  104

7.8  比較考慮和不考慮不相等錯誤成本的模型  106

7.9  數據驅動的錯誤成本  107

7.10  習題  110

第8章  樸素貝葉斯分類  113

8.1  樸素貝葉斯簡介  113

8.2  貝葉斯定理  113

8.3  最大化後驗假設  114

8.4  分類條件獨立性  114

8.5  樸素貝葉斯分類的應用  115

8.5.1  Python中的樸素貝葉斯  120

8.5.2  R中的樸素貝葉斯  123

8.6  習題  126

第9章  神經網絡  129

9.1  神經網絡簡介  129

9.2  神經網絡結構  129

9.3  連接權重和組合函數  131

9.4  sigmoid激活函數  133

9.5  反向傳播  133

9.6  神經網絡模型的應用  134

9.7  解釋神經網絡模型中的權重  136

9.8  如何在R中使用神經網絡  137

9.9  習題  138

第10章  聚類  141

10.1  聚類的定義  141

10.2  k均值聚類算法簡介  142

10.3  k均值聚類的應用  143

10.4  簇驗證  144

10.5  如何使用Python執行k均值聚類  145

10.6  如何使用R執行k均值聚類  147

10.7  習題  149

第11章  回歸建模  151

11.1  估計任務  151

11.2  回歸建模描述  151

11.3  多元回歸建模的應用  152

11.4  如何使用Python執行多重回歸建模  154

11.5  如何使用R執行多重回歸建模  156

11.6  用於估計的模型評估  158

11.6.1  如何使用Python進行估計模型評估  159

11.6.2  如何使用R進行估計模型評估  161

11.7  逐步回歸  162

11.8  回歸的基準模型  163

11.9  習題  164

第12章  降維  169

12.1  降維的必要性  169

12.2  多重共線性  170

12.3  使用方差膨脹因子識別多重共線性  173

12.3.1  如何使用Python識別多重共線性  174

12.3.2  如何使用R識別多重共線性  175

12.4  主成分分析  177

12.5  主成分分析的應用  178

12.6  我們應該提取多少分量  179

12.6.1  特徵值準則  179

12.6.2  方差解釋比例的準則  180

12.7  執行k = 4的PCA  180

12.8  主成分分析的驗證  181

12.9  如何使用Python進行主成分分析  182

12.10  如何使用R進行主成分分析  184

12.11  何時多重共線性不是問題  187

12.12  習題  187

第13章  廣義線性模型  191

13.1  廣義線性模型概述  191

13.2  線性回歸是一種廣義線性模型  192

13.3  作為廣義線性模型的邏輯回歸  192

13.4  邏輯回歸模型的應用  193

13.4.1  如何使用Python執行邏輯回歸  194

13.4.2  如何使用R執行邏輯回歸  195

13.5  泊松回歸  196

13.6  泊松回歸模型的應用  197

13.6.1  如何使用Python執行泊松回歸  197

13.6.2  如何使用R執行泊松回歸  199

13.7  習題  199

第14章  關聯規則  203

14.1  關聯規則簡介  203

14.2  關聯規則挖掘的簡單示例  203

14.3  支持度、信任度和提升度  204

14.4  挖掘關聯規則  206

14.5  確認我們的指標  211

14.6  置信差準則  212

14.7  置信商準則  213

14.8  習題  215

附錄A  數據匯總與可視化  219