大數據與數據科學基礎

宋晏、段世紅

  • 出版商: 清華大學
  • 出版日期: 2025-07-01
  • 售價: $354
  • 語言: 簡體中文
  • ISBN: 7302696772
  • ISBN-13: 9787302696773
  • 相關分類: PythonMachine Learning
  • 下單後立即進貨 (約4週~6週)

  • 大數據與數據科學基礎-preview-1
  • 大數據與數據科學基礎-preview-2
  • 大數據與數據科學基礎-preview-3
  • 大數據與數據科學基礎-preview-4
  • 大數據與數據科學基礎-preview-5
  • 大數據與數據科學基礎-preview-6
  • 大數據與數據科學基礎-preview-7
大數據與數據科學基礎-preview-1

相關主題

商品描述

"本書旨在為人工智能通識教育奠定基礎,采用Python語言展開數據科學的實踐。全書共9章,主要內容包括大數據與數據科學導論、Python語言基礎、NumPy科學計算、Pandas數據處理與分析、數據可視化、機器學習基礎、回歸分析、分類分析、集成學習。本書聚焦結構化數據分析,利用機器學習作為核心研究方法,致力於在多個應用場景中實現通識教育的落地,旨在培養學生挖掘數據價值的能力,並且通過數據驅動的智能分析實現對其他學科的賦能,促進跨學科的整合與發展。 本書適合作為高等學校各專業人工智能通識教育相關課程的教材,也可供對大數據與數據科學感興趣的讀者參考。 "

作者簡介

宋晏,長期從事高等教育教學工作,研究方向為軟件工程和數據科學。始終堅守教學一線,聚焦計算機基礎教育研究與本科生計算思維培養,近5年承擔《Python程序設計與數據分析展示》、《大數據與數據科學基礎》、《Java程序設計》等教學任務,教學成效突出,2021年獲北京科技大學“我愛我師-我心目中最優秀的老師”榮譽稱號,2024年獲評北京科技大學優質課程1門;積極開展本科生教育教學改革,主持省部級教改項目2項、校級教改項目2項,參與校級重點教改項目1項、在線開放課程建設項目3項。從教期間主編出版教材多部,2020年獲機械工業出版社“優秀作者”稱號。任北京科技大學復雜工業機器視覺系統實驗室骨幹成員,解決復雜工業機器視覺和復雜工業智能決策問題,並將科研成果向教學轉化。

目錄大綱

目錄

第1章大數據與數據科學導論1

1.1數據科學的基本概念1

1.1.1數據科學的知識領域1

1.1.2數據科學的核心工作2

1.2大數據計算框架3

1.2.1大數據技術3

1.2.2Hadoop計算框架4

1.2.3Spark計算框架5

1.3Jupyter Notebook6

1.3.1安裝和啟動6

1.3.2文件操作7

1.3.3文件編輯操作7

1.4本章小結11

1.5習題11

第2章Python語言基礎12

2.1格式化輸出12

2.1.1format()方法12

2.1.2fstring13

2.2數據結構14

2.2.1序列14

2.2.2集合15

2.2.3字典16

2.3推導式16

2.4函數18

2.4.1常用內置函數18

2.4.2內置高階函數21

2.4.3參數的意義26

2.4.4參數的定義和傳遞27

2.5模塊和第三方庫31〖3〗大數據與數據科學基礎目錄〖3〗2.5.1模塊和主模塊31

2.5.2包33

2.5.3第三方庫的下載和安裝33

2.6本章小結34

2.7習題35

第3章NumPy科學計算37

3.1NumPy數組37

3.2創建數組38

3.2.1array()函數38

3.2.2數組維度變換40

3.2.3NumPy內置函數42

3.2.4random模塊函數44

3.2.5數組拼接48

3.3選取數組元素49

3.3.1基本索引49

3.3.2切片49

3.3.3整數列表索引51

3.3.4布爾數組索引53

3.4NumPy數組運算55

3.4.1基本運算55

3.4.2通用函數運算56

3.4.3統計函數57

3.4.4np.where()函數59

3.5NumPy文件處理60

3.6數組廣播機制61

3.7本章小結62

3.8習題62

第4章Pandas數據處理與分析64

4.1Series對象64

4.1.1創建Series結構64

4.1.2Series向量化的字符串函數66

4.1.3Series統計計數排序68

4.2DataFrame對象69

4.2.1創建DataFrame結構69

4.2.2查看DataFrame71

4.2.3DataFrame數據的選取方法74

4.2.4DataFrame數據的增改77

4.2.5DataFrame數據的刪除79

4.2.6修改DataFrame對象的索引80

4.3數據文件讀寫81

4.3.1CSV文件導入導出81

4.3.2Excel文件導入導出83

4.4數據清洗85

4.4.1處理缺失值85

4.4.2刪除重復數據90

4.4.3案例——泰坦尼克號數據清洗91

4.5數據規整化94

4.5.1數據整合94

4.5.2數據排序99

4.5.3apply()方法101

4.6數據統計分析103

4.6.1數值統計103

4.6.2分組和聚合運算105

4.7本章小結114

4.8習題115

第5章數據可視化118

5.1可視化基礎知識118

5.1.1認識基本圖表118

5.1.2Matplotlib繪圖基礎知識118

5.2Matplotlib繪圖128

5.2.1折線圖128

5.2.2柱狀圖133

5.2.3餅圖136

5.2.4散點圖137

5.2.5直方圖139

5.2.6箱形圖141

5.3Pandas可視化接口143

5.3.1Pandas繪制折線圖144

5.3.2Pandas繪制柱狀圖145

5.3.3Pandas繪制餅圖146

5.3.4Pandas繪制散點圖148

5.3.5Pandas繪制直方圖149

5.3.6Pandas繪制箱形圖150

5.4Seaborn統計可視化152

5.4.1Seaborn基礎知識152

5.4.2Seaborn繪制柱狀圖153

5.4.3Seaborn繪制計數柱狀圖155

5.5Pyecharts繪圖156

5.6Python編程實踐——消費大數據探索性分析160

5.6.1數據集及其預處理161

5.6.2網站流量分析163

5.6.3轉化率分析165

5.6.4用戶價值分析167

5.7本章小結169

5.8習題170

第6章機器學習基礎175

6.1機器學習概述175

6.1.1從案例看機器學習175

6.1.2機器學習分類176

6.1.3機器學習基本術語177

6.1.4機器學習關鍵技術178

6.2樣本的表示179

6.2.1特征向量179

6.2.2特征工程179

6.2.3特征處理180

6.3模型的選擇和訓練183

6.3.1模型的選擇183

6.3.2損失函數的選擇184

6.3.3梯度下降188

6.4模型評估度量標準192

6.4.1過擬合和欠擬合193

6.4.2數據集的劃分策略194

6.4.3分類問題的模型評估195

6.5Scikitlearn庫199

6.5.1Scikitlearn概述199

6.5.2Scikitlearn庫數據導入201

6.5.3Scikitlearn數據預處理202

6.5.4Scikitlearn庫劃分數據集204

6.5.5Scikitlearn機器學習建模207

6.5.6使用Scikitlearn評估分類模型208

6.6本章小結210

6.7習題211

第7章回歸分析213

7.1回歸分析概述213

7.1.1線性回歸分析原理213

7.1.2回歸算法評價方法214

7.2一元線性回歸分析214

7.2.1簡單線性回歸與Statsmodels建模215

7.2.2解析法實現最小二乘法219

7.2.3多項式回歸220

7.2.4線性回歸與Scikitlearn建模221

7.3多元線性回歸分析224

7.3.1多元線性回歸與Statsmodels建模224

7.3.2多重共線性問題226

7.3.3Python編程實踐——汽車價格預測228

7.4正則化方法232

7.4.1正則化原理232

7.4.2Lasso回歸建模234

7.4.3嶺回歸建模236

7.5本章小結238

7.6習題238

第8章分類分析241

8.1邏輯回歸241

8.1.1邏輯回歸和Sigmoid函數241

8.1.2Python編程實踐——研究生錄取預測242

8.1.3多分類和Softmax函數——鳶尾花分類預測247

8.2KNN算法251

8.2.1KNN算法原理251

8.2.2Python編程實踐——病例診斷分析252

8.3支持向量機258

8.3.1SVM的基本原理258

8.3.2軟間隔與懲罰系數261

8.3.3非線性支持向量機與核函數262

8.3.4Python編程實踐——可視化支持向量264

8.3.5超參數優化方法——網格搜索和隨機搜索268

8.4決策樹271

8.4.1決策樹概述271

8.4.2決策樹的劃分選擇272

8.4.3決策樹預剪枝和後剪枝275

8.4.4Python編程實踐——企鵝生態研究276

8.4.5決策樹的可視化279

8.5本章小結282

8.6習題283

第9章集成學習286

9.1Bagging方法286

9.1.1Bagging集成思想286

9.1.2投票結合策略287

9.1.3隨機森林算法及其編程實踐290

9.2Boosting方法293

9.2.1Boosting集成思想293

9.2.2XGBoost算法及應用295

9.2.3XGBoost編程實踐——銀行定期存款產品訂購預測298

9.3本章小結304

9.4習題305

參考文獻307