深入淺出數據科學:Python編程 Dive Into Data Science: Use Python to Tackle Your Toughest Business Challenges

[美]布拉德福德·塔克菲爾德(Bradford Tuckfield)

  • 深入淺出數據科學:Python編程-preview-1
  • 深入淺出數據科學:Python編程-preview-2
深入淺出數據科學:Python編程-preview-1

相關主題

商品描述

本書通過對數據科學技術基本技能和豐富實用的示例的介紹,展示如何獲取、分析和可視化數據,利用數據應對常見的業務挑戰。通過優化共享單車公司的業務運營、從網站上提取數據並創建推薦系統等示例,你將學會如何找到數據驅動的解決方案並使用這些方案做出商業決策。本書所涵蓋的內容包括進行探索性數據分析、運行 A/B 測試、使用邏輯回歸模型進行二分類及使用機器學習算法等。通過本書,你還將學習如何預測客戶需求、優化營銷活動、減少客戶流失、預測網站流量,以及構建推薦系統等。

作者簡介

布拉德福德·塔克菲爾德(Bradford Tuckfield)是一名數據科學顧問兼作家,擁有賓夕法尼亞大學沃頓商學院的博士學位,以及楊百翰大學的數學學士學位。他曾在知名金融公司和初創企業擔任數據科學家和技術經理。他著有 Dive Into Algorithms和 Applied Unsupervised Learning with R,還在多家學術期刊發表過研究成果。

目錄大綱

1 探索性數據分析 1

1.1 作為 CEO 的第 一天 1

1.1.1 找出數據中的規律 2

1.1.2 使用.csv 文件查看和存儲數據 . 4

1.2 用 Python 顯示數據 4

1.3 計算匯總統計信息 6

1.4 分析數據子集 8

1.4.1 夜間數據 8

1.4.2 季節性數據 9

1.5 使用 Matplotlib 進行數據可視化 10

1.5.1 繪制並顯示一個簡單的圖表 10

1.5.2 為圖表添加標題和標簽 11

1.5.3 繪制數據子集圖表 12

1.5.4 測試不同繪圖類型 13

1.6 探索相關性 18

1.6.1 計算相關系數 18

1.6.2 理解強相關性和弱相關性 18

1.6.3 尋找變量之間的相關性 21

1.7 創建熱力圖 22

1.8 進一步探索 24

1.9 本章小結 24

2 預測 25

2.1 預測客戶需求 25

2.2 清洗錯誤數據 26

2.3 使用數據繪圖從而發現趨勢 28

2.4 執行線性回歸 29

2.4.1 將代數應用於回歸線 30

2.4.2 計算誤差測量 32

2.5 使用回歸預測未來趨勢 35

2.6 嘗試更多的回歸模型 36

2.6.1 通過多變量線性回歸對銷售量進行預測 36

2.6.2 用三角函數捕捉變化 38

2.7 選擇用於預測的最佳回歸模型 41

2.8 進一步探索 44

2.9 本章小結 45

3 分組比較 46

3.1 讀取總體數據 46

3.1.1 匯總統計信息 47

3.1.2 隨機采樣 48

3.1.3 樣本數據之間的差異 50

3.2 進行假設檢驗 53

3.2.1 t 檢驗 53

3.2.2 假設檢驗的細微差別 55

3.3 在實際環境中進行組間比較 56

3.4 本章小結 59

4 A/B 測試 60

4.1 實驗的必要性 60

4.2 運行實驗來檢驗新的假設 61

4.2.1 理解 A/B 測試的數學原理 64

4.2.2 將數學轉化為實踐 65

4.3 優化冠軍/挑戰者框架 66

4.4 用泰曼定律和 A/A 測試預防錯誤 67

4.5 理解效應值 69

4.6 計算數據的顯著性 70

4.7 應用及註意事項 72

4.8 A/B 測試的倫理問題 73

4.9 本章小結 74

5 二分類算法 75

5.1 減少客戶流失 75

5.2 利用線性概率模型發現高流失風險客戶 76

5.2.1 繪制流失情況數據圖表 77

5.2.2 用線性回歸確定關系 78

5.2.3 預測未來 80

5.2.4 提出業務建議 81

5.2.5 測量預測準確性 82

5.2.6 使用多變量線性概率模型 84

5.2.7 創建新指標 85

5.2.8 線性概率模型的缺點 87

5.3 用邏輯回歸預測二分類結果 87

5.3.1 繪制邏輯曲線 88

5.3.2 邏輯回歸 89

5.4 二分類的應用 91

5.5 本章小結 91

6 監督學習 92

6.1 預測網站流量 92

6.2 讀取並繪制文章數據 93

6.3 使用線性回歸作為預測方法 95

6.4 理解監督學習 96

6.5 k 近鄰 98

6.5.1 使用 kNN 99

6.5.2 使用 Python 的 sklearn 執行kNN 100

6.6 使用其他監督學習算法 101

6.6.1 決策樹 102

6.6.2 隨機森林 104

6.6.3 神經網絡 104

6.7 測量預測準確性的指標 106

6.8 使用多變量模型 108

6.9 使用分類代替回歸 108

6.10 本章小結 110

7 無監督學習 111

7.1 無監督學習與監督學習 111

7.2 生成和探索數據 112

7.2.1 擲色子 112

7.2.2 使用另一種色子 115

7.3 聚類觀測的來源 117

7.4 實際業務中的聚類 120

7.5 分析多維數據 121

7.6 EM 聚類 123

7.6.1 “猜測”步驟 124

7.6.2 “期望”步驟 125

7.6.3 “最大化”步驟 127

7.6.4 “收斂”步驟 129

7.7 其他聚類方法 131

7.8 其他無監督學習方法 133

7.9 本章小結 134

8 網絡爬取 135

8.1 理解網站是如何運行的 135

8.2 創建第 一個網頁爬蟲 137

8.3 解析 HTML 代碼 138

8.3.1 爬取電子郵件地址 138

8.3.2 直接搜索地址 139

8.4 使用正則表達式執行搜索 140

8.4.1 使用元字符進行靈活的搜索 142

8.4.2 使用轉義序列對搜索進行微調 142

8.4.3 結合文本和元字符進行高級搜索 144

8.5 使用正則表達式搜索電子郵件地址 145

8.6 將爬取的結果轉換為可用數據 145

8.7 使用 Beautiful Soup 147

8.7.1 解析 HTML 標簽元素 148

8.7.2 爬取和解析 HTML 表格 149

8.8 高級爬取 150

8.9 本章小結 151

9 推薦系統 152

9.1 基於人氣的推薦 152

9.2 基於商品的協同過濾 154

9.2.1 量化向量相似性 155

9.2.2 計算余弦相似度 157

9.2.3 實現基於商品的協同過濾 158

9.3 基於用戶的協同過濾 159

9.4 案例研究:音樂推薦 162

9.5 用高級系統生成推薦 163

9.6 本章小結 164

10 自然語言處理 . 165

10.1 使用 NLP 技術檢測抄襲 165

10.2 理解 word2vec NLP 模型 166

10.2.1 量化單詞之間的相 似性 167

10.2.2 創建一個方程組 168

10.3 word2vec 中的數值向量分析 172

10.3.1 通過數學運算來操作向量 174

10.3.2 使用 word2vec 檢測抄襲 175

10.4 使用 skip-thoughts 176

10.5 主題建模 178

10.6 其他 NLP 應用 180

10.7 本章小結 180

11 其他語言中的數據科學 181

11.1 用 SQL 贏得足球比賽 181

11.1.1 讀取和分析數據 182

11.1.2 熟悉 SQL 183

11.1.3 設置 SQL 數據庫 183

11.1.4 運行 SQL 查詢 184

11.1.5 使用連接從多張表取得數據 186

11.2 用 R 贏得足球比賽 189

11.2.1 熟悉 R 189

11.2.2 在 R 中使用線性回歸 190

11.2.3 使用 R 對數據進行 繪圖 191

11.3 獲得其他有價值的技能 193

11.4 本章小結 194