大數據與數據科學基礎
宋晏、段世紅
- 出版商: 清華大學
- 出版日期: 2025-07-01
- 售價: $354
- 語言: 簡體中文
- ISBN: 7302696772
- ISBN-13: 9787302696773
-
相關分類:
Python、Machine Learning
下單後立即進貨 (約4週~6週)
相關主題
商品描述
作者簡介
目錄大綱
目錄
第1章大數據與數據科學導論1
1.1數據科學的基本概念1
1.1.1數據科學的知識領域1
1.1.2數據科學的核心工作2
1.2大數據計算框架3
1.2.1大數據技術3
1.2.2Hadoop計算框架4
1.2.3Spark計算框架5
1.3Jupyter Notebook6
1.3.1安裝和啟動6
1.3.2文件操作7
1.3.3文件編輯操作7
1.4本章小結11
1.5習題11
第2章Python語言基礎12
2.1格式化輸出12
2.1.1format()方法12
2.1.2fstring13
2.2數據結構14
2.2.1序列14
2.2.2集合15
2.2.3字典16
2.3推導式16
2.4函數18
2.4.1常用內置函數18
2.4.2內置高階函數21
2.4.3參數的意義26
2.4.4參數的定義和傳遞27
2.5模塊和第三方庫31〖3〗大數據與數據科學基礎目錄〖3〗2.5.1模塊和主模塊31
2.5.2包33
2.5.3第三方庫的下載和安裝33
2.6本章小結34
2.7習題35
第3章NumPy科學計算37
3.1NumPy數組37
3.2創建數組38
3.2.1array()函數38
3.2.2數組維度變換40
3.2.3NumPy內置函數42
3.2.4random模塊函數44
3.2.5數組拼接48
3.3選取數組元素49
3.3.1基本索引49
3.3.2切片49
3.3.3整數列表索引51
3.3.4布爾數組索引53
3.4NumPy數組運算55
3.4.1基本運算55
3.4.2通用函數運算56
3.4.3統計函數57
3.4.4np.where()函數59
3.5NumPy文件處理60
3.6數組廣播機制61
3.7本章小結62
3.8習題62
第4章Pandas數據處理與分析64
4.1Series對象64
4.1.1創建Series結構64
4.1.2Series向量化的字符串函數66
4.1.3Series統計計數排序68
4.2DataFrame對象69
4.2.1創建DataFrame結構69
4.2.2查看DataFrame71
4.2.3DataFrame數據的選取方法74
4.2.4DataFrame數據的增改77
4.2.5DataFrame數據的刪除79
4.2.6修改DataFrame對象的索引80
4.3數據文件讀寫81
4.3.1CSV文件導入導出81
4.3.2Excel文件導入導出83
4.4數據清洗85
4.4.1處理缺失值85
4.4.2刪除重復數據90
4.4.3案例——泰坦尼克號數據清洗91
4.5數據規整化94
4.5.1數據整合94
4.5.2數據排序99
4.5.3apply()方法101
4.6數據統計分析103
4.6.1數值統計103
4.6.2分組和聚合運算105
4.7本章小結114
4.8習題115
第5章數據可視化118
5.1可視化基礎知識118
5.1.1認識基本圖表118
5.1.2Matplotlib繪圖基礎知識118
5.2Matplotlib繪圖128
5.2.1折線圖128
5.2.2柱狀圖133
5.2.3餅圖136
5.2.4散點圖137
5.2.5直方圖139
5.2.6箱形圖141
5.3Pandas可視化接口143
5.3.1Pandas繪制折線圖144
5.3.2Pandas繪制柱狀圖145
5.3.3Pandas繪制餅圖146
5.3.4Pandas繪制散點圖148
5.3.5Pandas繪制直方圖149
5.3.6Pandas繪制箱形圖150
5.4Seaborn統計可視化152
5.4.1Seaborn基礎知識152
5.4.2Seaborn繪制柱狀圖153
5.4.3Seaborn繪制計數柱狀圖155
5.5Pyecharts繪圖156
5.6Python編程實踐——消費大數據探索性分析160
5.6.1數據集及其預處理161
5.6.2網站流量分析163
5.6.3轉化率分析165
5.6.4用戶價值分析167
5.7本章小結169
5.8習題170
第6章機器學習基礎175
6.1機器學習概述175
6.1.1從案例看機器學習175
6.1.2機器學習分類176
6.1.3機器學習基本術語177
6.1.4機器學習關鍵技術178
6.2樣本的表示179
6.2.1特征向量179
6.2.2特征工程179
6.2.3特征處理180
6.3模型的選擇和訓練183
6.3.1模型的選擇183
6.3.2損失函數的選擇184
6.3.3梯度下降188
6.4模型評估度量標準192
6.4.1過擬合和欠擬合193
6.4.2數據集的劃分策略194
6.4.3分類問題的模型評估195
6.5Scikitlearn庫199
6.5.1Scikitlearn概述199
6.5.2Scikitlearn庫數據導入201
6.5.3Scikitlearn數據預處理202
6.5.4Scikitlearn庫劃分數據集204
6.5.5Scikitlearn機器學習建模207
6.5.6使用Scikitlearn評估分類模型208
6.6本章小結210
6.7習題211
第7章回歸分析213
7.1回歸分析概述213
7.1.1線性回歸分析原理213
7.1.2回歸算法評價方法214
7.2一元線性回歸分析214
7.2.1簡單線性回歸與Statsmodels建模215
7.2.2解析法實現最小二乘法219
7.2.3多項式回歸220
7.2.4線性回歸與Scikitlearn建模221
7.3多元線性回歸分析224
7.3.1多元線性回歸與Statsmodels建模224
7.3.2多重共線性問題226
7.3.3Python編程實踐——汽車價格預測228
7.4正則化方法232
7.4.1正則化原理232
7.4.2Lasso回歸建模234
7.4.3嶺回歸建模236
7.5本章小結238
7.6習題238
第8章分類分析241
8.1邏輯回歸241
8.1.1邏輯回歸和Sigmoid函數241
8.1.2Python編程實踐——研究生錄取預測242
8.1.3多分類和Softmax函數——鳶尾花分類預測247
8.2KNN算法251
8.2.1KNN算法原理251
8.2.2Python編程實踐——病例診斷分析252
8.3支持向量機258
8.3.1SVM的基本原理258
8.3.2軟間隔與懲罰系數261
8.3.3非線性支持向量機與核函數262
8.3.4Python編程實踐——可視化支持向量264
8.3.5超參數優化方法——網格搜索和隨機搜索268
8.4決策樹271
8.4.1決策樹概述271
8.4.2決策樹的劃分選擇272
8.4.3決策樹預剪枝和後剪枝275
8.4.4Python編程實踐——企鵝生態研究276
8.4.5決策樹的可視化279
8.5本章小結282
8.6習題283
第9章集成學習286
9.1Bagging方法286
9.1.1Bagging集成思想286
9.1.2投票結合策略287
9.1.3隨機森林算法及其編程實踐290
9.2Boosting方法293
9.2.1Boosting集成思想293
9.2.2XGBoost算法及應用295
9.2.3XGBoost編程實踐——銀行定期存款產品訂購預測298
9.3本章小結304
9.4習題305
參考文獻307