大數據分析處理(慕課版)

郭永洪,賀萌

  • 出版商: 人民郵電
  • 出版日期: 2026-02-01
  • 定價: $419
  • 售價: $418
  • 語言: 簡體中文
  • 頁數: 274
  • ISBN: 7115628270
  • ISBN-13: 9787115628275
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • 大數據分析處理(慕課版)-preview-1
大數據分析處理(慕課版)-preview-1

商品描述

本書采用理論知識與任務案例相結合的形式,以PyCharm為主要開發工具,系統地闡述了大數據分析處理工作流程中的重要步驟,介紹了大數據分析過程中常用的幾種第三方庫。本書共13個單元,第1單元介紹了大數據分析處理的概念;第2、3單元介紹了大數據分析中科學計算與統計分析的相關知識;第4-7單元介紹了使用Pandas實現數據預處理的方法;第8單元介紹了使用Scikit-learn實現簡單的機器學習的方法;第9單元介紹了使用Matplotlib、Seaborn繪制圖表的方法;第10-13單元分別介紹了4個大數據分析處理的綜合案例。單元1-9中,每個單元都包含了相關知識部分和任務實現部分,任務實現部分一般包含多個任務的具體實現過程,每個任務後面都有課堂實踐,通過完成實踐操作,讀者可以進一步鞏固所學知識。

本書既可作為高等院校大數據技術專業的教材,也可作為大數據愛好者的自學書籍。

作者簡介

永洪 常州信息職業技術學院大數據技術專業負責人,具有豐富大數據技術專業相關教學和科研工作經驗,為國家級教學團隊成員、國家級職業教育教師教學創新團隊成員、江蘇省高校“青藍工程”優秀青年骨幹教師、江蘇省優秀畢業設計團隊指導老師;參與國家精品資源共享課、國家在線開放課、軟件技術專業國家教學資源庫、省在線開放課程等建設;獲江蘇省教學成果一等獎一項、二等獎一項。主要講授大數據分析處理、數據庫管理與應用、C#應用開發、UML建模與設計模式、Web前端開發等課程;參與編寫國家規劃教材《軟件開發與項目管理》、《信息技術基礎》,主編高職高專規劃教材《XML案例教材》,主編常州信息職業技術學院精品教材《.NET Web應用開發》。

目錄大綱

目錄

單元1 大數據分析概述 1

 學習目標 1

 相關知識 1

1. 大數據分析的概念 1

2. 大數據分析的產生與發展過程 2

3. 大數據分析的應用場景 3

4. 大數據分析流程 4

5. 傳統的分析統計工具 9

6. 大數據處理編程語言 9

7. 大數據分析實用工具 10

 任務實現 11

任務1.1根據業務需求選擇合適的大數據分析技術 11

1.1.1 業務需求分析 11

1.1.2 選擇大數據分析技術 12

任務1.2 使用 pip和Pycharm完成 Python包的管理 13

1.2.1 了解Python常用庫 13

1.2.2 使用pip命令安裝、卸載Python包 14

1.2.3 使用Pycharm平臺安裝、卸載Python包 16

 思政園地 19

 單元小結 20

 課後習題 20

單元2 NumPy科學計算基礎 22

 學習目標 22

 相關知識 22

1.NumPy與ndarray對象 22

2.創建ndarray數組的函數 23

3.ndarray對象的數據類型 23

4.數組的矢量化運算 24

5.廣播機制 25

6.數組與標量的運算 26

7.NumPy通用函數 26

8.NumPy的統計與排序方法 27

9.NumPy的numpy.linalg模塊 29

 任務實現 29

任務2.1 保存考試成績—創建一個數組 29

2.1.1 使用函數創建數組 29

2.1.2 掌握隨機數模塊的使用 32

任務2.2 查看考試成績數據類型—查看數組的數據類型 35

2.2.1 查看數據類型 35

2.2.2 實現數據類型轉換 36

任務2.3 對兩門課成績進行相加—實現數組運算 37

2.3.1 實現矢量化運算 37

2.3.2 實現數組廣播 38

2.3.3 實現數組與標量間的運算 39

任務2.4 對考試成績進行計算—使用NumPy通用函數實現數組計算 39

2.4.1 一元通用函數的使用 40

2.4.2 二元通用函數的使用 40

任務2.5對考試成績進行統計排序—利用NumPy數組進行數據處理 42

2.5.1 變換數組的形態 42

2.5.2 實現數組統計 44

2.5.3 實現數組排序 47

任務2.6 對多門課成績進行計算—使用NumPy的線性代數模塊處理矩陣 49

2.6.1 計算對角線元素和 49

2.6.2 實現矩陣乘法 49

 思政園地 50

 單元小結 51

 課後習題 51

單元3 Pandas統計分析基礎 53

 學習目標 53

 相關知識 53

1. Pandas與Pandas的數據類型 53

2.創建Series和DataFrame的函數 55

3.索引與切片 56

4.排序算法與實現排序的方法 56

5.統計學與實現統計的方法 56

 任務實現 57

任務3.1 用不同方式創建系列——創建Series 57

3.1.1 創建一個空的Series 57

3.1.2 使用ndarray對象創建一個Series 58

3.1.3 使用字典創建一個Series 58

3.1.4 使用標量創建一個Series 59

任務3.2 用不同方式創建數據幀——創建DataFrame 59

3.2.1 使用字典創建數據幀 59

3.2.2 使用csv文件創建DataFrame 62

3.2.3 在DataFrame中插入列和行 63

任務3.3 訪問和提取隨機數據——使用DataFrame進行索引與切片 65

3.3.1 使用索引訪問數據 65

3.3.2 使用切片提取部分數據 66

任務3.4 對學生數據進行排序—實現數據排序 67

3.4.1 使用sort、sort_index、sort_values實現數據排序 67

3.4.2 控制排序順序 69

3.4.3 設置排序算法 71

任務3.5 進行隨機數據統計—實現數據統計 72

3.5.1 使用Pandas的統計方法進行統計 72

3.5.2 使用describe方法描述數據 76

 思政園地 77

 單元小結 77

 課後習題 78

目錄

單元4 數據加載與存儲 80

 學習目標 80

 相關知識 80

1. 常用的數據文件類型 80

2.文本文件讀取和寫入 81

3.Excel文件讀取和寫入 83

4. 數據庫文件讀取和寫入 85

 任務實現 88

任務4.1 讀取並存儲城市經緯度數據-txt文件讀寫 88

4.1.1 讀取txt文件中數據 89

4.1.2 將數據寫入txt文件 91

任務4.2 讀取並存儲招聘數據-csv文件的讀寫 92

4.2.1 讀取csv文件數據 93

4.2.2 將數據寫入csv文件 94

任務4.3 讀取並存儲用戶數據-Excel文件的讀寫 96

4.3.1 讀取Excel文件工作表數據 96

4.3.2 將數據寫入Excel文件的工作表中 96

任務4.4 讀取商品類別數據並存儲賬戶數據-MySQL數據庫讀寫 96

4.4.1 連接MySQL數據庫 96

4.4.2 從MySQL數據庫讀取數據 96

4.4.3 存儲數據到MySQL數據庫 96

 思政園地 96

 單元小結 96

 課後習題 96

目錄

單元5 數據質量與數據清洗 110

 學習目標 110

 相關知識 110

1.企業數據管理現狀 110

2.數據標準 111

3.數據質量的定義 111

4.常用的數據質量檢測手段 113

5.數據質量管理的必要性 113

6. 缺失值 114

7. 重復值 115

8. 異常值 117

 任務實現 120

任務5.1 醫藥銷售數據遺漏檢查-缺失值處理 120

5.1.1 發現缺失值 121

5.1.2 處理缺失值 123

任務5.2 醫藥銷售數據去重校驗-重復值處理 125

5.2.1 重復值判斷和查看 125

5.2.2 處理記錄重復值 126

5.2.3 處理特征重復值 127

任務5.3 醫藥銷售數據異常值排除-異常值處理 130

5.3.1 異常值識別 131

5.3.2 異常值處理 132

 思政園地 133

 單元小結 133

 課後習題 134

單元6 數據合並與轉換 136

 學習目標 136

 相關知識 136

1.concat()函數 136

2.append()方法 138

3.merge()函數 138

4.join()方法 141

5.combine_first()方法 142

6.map()方法 143

7.cut()函數 143

8.qcut()函數 144

 任務實現 145

任務6.1 堆疊學生信息和考試成績數據—實現數據堆疊 145

6.1.1 實現數據橫向堆疊 145

6.1.2 實現數據縱向堆疊 146

任務6.2 連接學生信息和考試成績數據—實現數據連接 148

6.2.1 使用merge()函數實現數據連接 148

6.2.2 使用join()方法實現數據連接 150

6.2.3 使用combine_first()方法重疊合並數據 151

任務6.3 對學生考試成績進行等級轉換—實現數據映射轉換 152

6.3.1 使用自定義函數映射轉換數據 152

6.3.2 使用字典映射轉換數據 153

6.3.3 使用lambda表達式映射轉換數據 154

任務6.4 對學生考試成績進行離散化—實現數據離散化 155

6.4.1 實現數據等寬離散化 155

6.4.2 實現數據等頻離散化 156

 思政園地 157

 單元小結 157

 課後習題 158

單元7 數據分組與聚合 160

 學習目標 160

 相關知識 160

1.數據分組的概念 160

2.GroupBy機制 161

3.數據分組的原則和依據 161

4.數據分組的方法與體系 162

5.數據聚合的概念 163

6. agg和aggregate函數 163

7. apply函數 163

8. transform函數 163

 任務實現 164

任務7.1 簡單數據表處理-數據分組 164

7.1.1 數據分組方法 164

7.1.2 實現Pandas 數據分組 166

任務7.2 人員得分表處理-數據聚合 172

7.2.1 實現agg聚合 172

7.2.2 實現apply聚合 175

7.2.3 實現transform聚合 179

 思政園地 181

 單元小結 182

 課後習題 182

單元8 Scikit-learn機器學習 184

 學習目標 184

 相關知識 184

1.機器學習的概念 184

2.機器學習的基本術語 185

3.機器學習的分類與應用 185

4.假設空間 185

5.歸納偏好 186

6.Sklearn 187

7.劃分數據集函數 188

8.preprocessing模塊 189

9.標準化和歸一化 190

10.降維 190

11.線性回歸 191

12.邏輯回歸 192

13.K-means算法 194

14.樸素貝葉斯 195

15.支持向量機算法 198

 任務實現 201

任務8.1 使用sklearn處理iris數據集—使用sklearn處理數據 201

8.1.1 導入數據集 201

8.1.2 劃分訓練集和測試集 202

任務8.2 boston數據集預處理和降維—數據集預處理 202

8.2.1 實現數據標準化 202

8.2.2 實現數據歸一化 202

8.2.3 實現PCA降維 202

任務8.3 構建並評價boston回歸模型—回歸模型分析與預測 202

8.3.1 實現線性回歸 202

8.3.2 實現支持向量機算法 202

任務8.4 構建並評價iris分類模型—分類模型分析與預測 202

8.4.1 實現邏輯回歸分類 202

8.4.2 實現樸素貝葉斯算法 202

任務8.5 構建並評價iris聚類模型—聚類模型分析與評價 202

8.5.1 實現K-means算法 202

8.5.2 評價K-means算法 202

 思政園地 202

 單元小結 202

 課後習題 202

單元9 使用統計圖表展示數據 225

 學習目標 225

 相關知識 225

1. 數據可視化的概念 225

2. 數據可視化設計過程 226

3. 基本圖表類型及使用場景 227

4. pyplot基礎語法 229

5. rc參數 230

6. 繪制線圖的函數plot 231

7. 繪制柱狀圖的函數bar 232

8. 繪制直方圖的函數hist 232

9. 繪制餅圖的函數pie 233

10. 繪制散點圖的函數scatter 233

11. 子圖的概念 234

12. Seaborn 235

 任務實現 236

任務9.1 使用線圖展示水果銷量變化曲線—掌握matplotlib基礎語法 236

9.1.1 掌握pyplot基礎語法 236

9.1.2 設置pyplot的動態rc參數 237

任務9.2 使用常用圖表展示多個品牌汽車銷售額—繪制常見圖表 239

9.2.1 繪制線圖 239

9.2.2 繪制柱狀圖 241

9.2.3 繪制直方圖 243

9.2.4 繪制餅圖 244

9.2.5 繪制散點圖 246

任務9.3 使用子圖展示就業率數據—創建子圖 248

9.3.1數據分析與子圖設計 249

9.3.2 實現子圖的創建 250

任務9.4 使用Seaborn展示汽車數據的分布與相關性—使用Seaborn繪制圖表 252

9.4.1 使用Seaborn繪制直方圖 252

9.4.2 使用Seaborn繪制熱力圖 253

 思政園地 255

 單元小結 256

 課後習題 256

單元10 某地區電力公司用戶付費行為預測 258

任務10.1 案例背景概述 258

10.1.1項目目標 258

10.1.2相關背景業務知識 258

10.1.3數據采集和理解 258

任務10.2 電力數據預處理 259

10.2.1按賬戶和日期排序 260

10.2.2統計每個賬戶每個月各種賬戶活動發生的數量 261

10.2.3計算當月月底的賬戶余額 262

10.2.4計算當月月底賬戶余額,按下月10日前計算的賬戶余額 263

10.2.5計算每個賬戶每個月的用電量和繳費量 264

10.2.6合並整理為新的用戶繳費明細和用電量明細表 265

10.2.7數據中空值的處理 265

任務10.3 模型建立與評估 265

10.3.1數據特征的轉換 265

10.3.2邏輯回歸模型建立與評估 265

10.3.3支持向量機模型建立與評估 265

單元11 《你好,舊時光》文本挖掘分析 275

任務11.1 案例背景概述 275

11.1.1項目目標 275

11.1.2相關背景知識 275

11.1.3實驗準備 276

任務11.2 文本數據準備與處理 277

11.2.1讀入數據與基本處理 277

11.2.2創建停用詞 277

11.2.3找出章節的頭部索引和尾部索引 277

11.2.4 繪制章節段數與字數折線圖 278

任務11.3 文本分詞與詞雲繪制 278

11.3.1全文分詞 278

11.3.2統計詞頻與長度 279

11.3.3繪制高頻詞圖 279

11.3.4詞雲繪制 280

任務11.4 關系網絡探索 280

11.4.1 計算段落權重 280

11.4.2 繪制人物關系圖 282

任務11.5 聚類分析 283

11.5.1計算tf-idf得到詞向量矩陣 283

11.5.2獲得所有特征項 284

11.5.3 k均值聚類 284

11.5.4 聚類結果可視化 285

11.5.5 層次聚類 285

單元12 基於大數據可視化的城市通勤特征分析研究 287

任務12.1 案例背景概述 287

12.1.1項目目標 287

12.1.2相關背景知識 287

任務12.2 原始數據預處理 287

12.2.1數據的載入 288

12.2.2站點信息處理 289

12.2.3地鐵刷卡記錄處理 290

12.2.4 合並通勤記錄 291

12.2.5 虛擬換乘站點數據合並 292

任務12.3 詞雲圖的繪制 295

12.3.1載入數據 295

12.3.2 設置文字雲圖各項參數 296

12.3.3 繪制詞雲圖 296

任務12.4 繪制起終點分布連線圖 296

12.4.1 載入數據 296

12.4.2 統計頻數並篩選 296

12.4.3 完成繪圖 296

任務12.5 繪制早高峰地鐵刷卡進出站分布圖 296

12.5.1載入數據 296

12.5.2統計出入站的頻次 296

12.5.3設置圖形選項參數並畫圖 296

任務12.6職住地識別與城市規劃對比分析 296

12.6.1載入數據 296

12.6.2統計居住地和工作地的出入站頻次 296

12.6.3進行區域中心分析 296

任務13.1 案例背景概述 312

13.1.1項目目標 312

13.1.2相關背景知識 312

任務13.2 網絡數據爬取 312

13.2.1查看要爬取的網頁結構 312

13.2.2提取此網頁中的新聞標題 313

任務13.3 中文文本處理 314

13.3.1中文分詞 315

13.3.2將分詞後得到的詞組轉換為向量 316

任務13.4 機器學習做情感分析 318

13.4.1 樣本拆分 318

13.4.2 模型訓練與評價 318

任務13.5 作詞雲圖 321

13.5.1載入數據 321

13.5.2分詞 321

13.5.3繪制詞雲圖 322