數據科學實戰入門 使用Python和R
[法] 尚塔爾·D·拉羅斯(Chantal D. Larose), 丹尼爾·T·拉羅斯(Daniel T. Larose) 著 王海濤,宋麗華,邢長友 譯
- 出版商: 清華大學
- 出版日期: 2020-07-01
- 定價: $419
- 售價: 7.9 折 $331
- 語言: 簡體中文
- ISBN: 7302553793
- ISBN-13: 9787302553793
-
相關分類:
Python、R 語言
- 此書翻譯自: Data Science Using Python and R
立即出貨 (庫存 < 4)
買這商品的人也買了...
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
目錄大綱
目 錄
第1章 數據科學導引 1
1.1 為何學習數據科學 1
1.2 何為數據科學 1
1.3 數據科學方法論 2
1.4 數據科學任務 5
1.4.1 描述 5
1.4.2 估計 6
1.4.3 分類 6
1.4.4 聚類 6
1.4.5 預測 6
1.4.6 關聯 7
1.5 習題 7
第2章 Python和R語言基礎 9
2.1 下載Python 9
2.2 Python編程基礎 10
2.2.1 在Python中使用註釋 10
2.2.2 在Python中執行命令 11
2.2.3 在Python中導入軟件包 11
2.2.4 將數據引入Python 12
2.2.5 在Python中保存輸出 13
2.2.6 訪問Python中的記錄和變量 14
2.2.7 在Python中設置圖形 16
2.3 下載R和RStudio 18
2.4 R語言編程基礎 19
2.4.1 在R中使用註釋 20
2.4.2 在R中執行命令 20
2.4.3 在R中導入軟件包 20
2.4.4 將數據導入R 21
2.4.5 在R中保存輸出 23
2.4.6 在R中訪問記錄和變量 24
2.5 習題 26
第3章 數據準備 29
3.1 銀行營銷數據集 29
3.2 問題理解階段 29
3.2.1 明確闡明項目目標 29
3.2.2 將這些目標轉化為數據科學問題 30
3.3 數據準備階段 30
3.4 添加索引字段 31
3.4.1 如何使用Python添加索引字段 31
3.4.2 如何使用R添加索引字段 32
3.5 更改誤導性字段值 33
3.5.1 如何使用Python更改誤導性字段值 33
3.5.2 如何使用R更改誤導性字段值 35
3.6 將分類數據重新表示為數字 36
3.6.1 如何使用Python重新表達分類字段值 37
3.6.2 如何使用R重新表達分類字段值 38
3.7 標準化數字字段 39
3.7.1 如何使用Python標準化數字字段 40
3.7.2 如何使用R標準化數字字段 40
3.8 識別異常值 40
3.8.1 如何使用Python識別異常值 41
3.8.2 如何使用R識別異常值 42
3.9 習題 43
第4章 探索性數據分析 47
4.1 EDA對比HT 47
4.2 疊加了response的條形圖 47
4.2.1 如何使用Python構建疊加的條形圖 49
4.2.2 如何使用R構建疊加的條形圖 50
4.3 列聯表 51
4.3.1 如何使用Python構建列聯表 52
4.3.2 如何使用R構建列聯表 53
4.4 疊加有響應的柱狀圖 54
4.4.1 如何使用Python構建疊加柱狀圖 55
4.4.2 如何使用R構建疊加柱狀圖 58
4.5 基於預測值的分箱 59
4.5.1 如何使用Python基於預測值執行分箱 61
4.5.2 如何使用R基於預測值執行分箱 63
4.6 習題 64
第5章 為建模數據做準備 69
5.1 迄今完成的任務 69
5.2 數據分區 69
5.2.1 如何使用Python對數據進行分區 70
5.2.2 如何使用R對數據進行分區 71
5.3 驗證數據分區 72
5.4 平衡訓練數據集 73
5.4.1 如何使用Python平衡訓練數據集 73
5.4.2 如何使用R平衡訓練數據集 75
5.5 建立模型性能基準 76
5.6 習題 78
第6章 決策樹 81
6.1 決策樹簡介 81
6.2 分類與回歸樹 83
6.2.1 如何使用Python構建CART決策樹 83
6.2.2 如何使用R構建CART決策樹 86
6.3 用於構建決策樹的C5.0算法 88
6.3.1 如何使用Python構建C5.0決策樹 89
6.3.2 如何使用R構建C5.0決策樹 90
6.4 隨機森林 91
6.4.1 如何使用Python構建隨機森林 92
6.4.2 如何使用R構建隨機森林 92
6.5 習題 93
第7章 模型評估 97
7.1 模型評估簡介 97
7.2 分類評價措施 97
7.3 靈敏度和特異度 99
7.4 精確度、召回率和Fβ分數 99
7.5 模型評估方法 100
7.6 模型評估的應用示例 100
7.7 說明不對稱的錯誤成本 104
7.8 比較考慮和不考慮不相等錯誤成本的模型 106
7.9 數據驅動的錯誤成本 107
7.10 習題 110
第8章 樸素貝葉斯分類 113
8.1 樸素貝葉斯簡介 113
8.2 貝葉斯定理 113
8.3 最大化後驗假設 114
8.4 分類條件獨立性 114
8.5 樸素貝葉斯分類的應用 115
8.5.1 Python中的樸素貝葉斯 120
8.5.2 R中的樸素貝葉斯 123
8.6 習題 126
第9章 神經網絡 129
9.1 神經網絡簡介 129
9.2 神經網絡結構 129
9.3 連接權重和組合函數 131
9.4 sigmoid激活函數 133
9.5 反向傳播 133
9.6 神經網絡模型的應用 134
9.7 解釋神經網絡模型中的權重 136
9.8 如何在R中使用神經網絡 137
9.9 習題 138
第10章 聚類 141
10.1 聚類的定義 141
10.2 k均值聚類算法簡介 142
10.3 k均值聚類的應用 143
10.4 簇驗證 144
10.5 如何使用Python執行k均值聚類 145
10.6 如何使用R執行k均值聚類 147
10.7 習題 149
第11章 回歸建模 151
11.1 估計任務 151
11.2 回歸建模描述 151
11.3 多元回歸建模的應用 152
11.4 如何使用Python執行多重回歸建模 154
11.5 如何使用R執行多重回歸建模 156
11.6 用於估計的模型評估 158
11.6.1 如何使用Python進行估計模型評估 159
11.6.2 如何使用R進行估計模型評估 161
11.7 逐步回歸 162
11.8 回歸的基準模型 163
11.9 習題 164
第12章 降維 169
12.1 降維的必要性 169
12.2 多重共線性 170
12.3 使用方差膨脹因子識別多重共線性 173
12.3.1 如何使用Python識別多重共線性 174
12.3.2 如何使用R識別多重共線性 175
12.4 主成分分析 177
12.5 主成分分析的應用 178
12.6 我們應該提取多少分量 179
12.6.1 特徵值準則 179
12.6.2 方差解釋比例的準則 180
12.7 執行k = 4的PCA 180
12.8 主成分分析的驗證 181
12.9 如何使用Python進行主成分分析 182
12.10 如何使用R進行主成分分析 184
12.11 何時多重共線性不是問題 187
12.12 習題 187
第13章 廣義線性模型 191
13.1 廣義線性模型概述 191
13.2 線性回歸是一種廣義線性模型 192
13.3 作為廣義線性模型的邏輯回歸 192
13.4 邏輯回歸模型的應用 193
13.4.1 如何使用Python執行邏輯回歸 194
13.4.2 如何使用R執行邏輯回歸 195
13.5 泊松回歸 196
13.6 泊松回歸模型的應用 197
13.6.1 如何使用Python執行泊松回歸 197
13.6.2 如何使用R執行泊松回歸 199
13.7 習題 199
第14章 關聯規則 203
14.1 關聯規則簡介 203
14.2 關聯規則挖掘的簡單示例 203
14.3 支持度、信任度和提升度 204
14.4 挖掘關聯規則 206
14.5 確認我們的指標 211
14.6 置信差準則 212
14.7 置信商準則 213
14.8 習題 215
附錄A 數據匯總與可視化 219



