Python數據分析與應用(第3版)(微課版)
曾文權,張良均
- 出版商: 人民郵電
- 出版日期: 2025-07-01
- 售價: $359
- 語言: 簡體中文
- 頁數: 294
- ISBN: 7115673233
- ISBN-13: 9787115673237
-
相關分類:
Python、Data-visualization、Data-mining
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書以項目為導向,全面地介紹數據分析的流程和Python數據分析庫的應用,詳細講解利用Python解決企業實際問題的方法。全書共9個項目,項目1介紹數據分析的概念等相關知識;項目2~5、項目7介紹Python數據分析的常用庫及其應用,涵蓋NumPy數組計算基礎,pandas統計分析基礎,使用pandas進行數據預處理,Matplotlib、seaborn、pyecharts數據可視化基礎,以及使用scikit-learn構建模型,較為全面地闡述Python數據分析方法;項目6、項目8結合已介紹的數據分析技術進行企業綜合案例的數據分析;項目9基於去編程化的TipDM大數據挖掘建模平臺實現客戶流失預測。除項目1,本書各項目都包含項目實訓與課後習題,讀者可以進行練習和操作實踐,鞏固所學的內容。
本書可以作為職業院校大數據技術相關專業的教材和大數據技術愛好者的自學參考書。
作者簡介
曾文權,教授,廣東科學技術職業學院副校長,全國工信行指委計算機分委會委員、中國計算機學會職業教育發展委員會副主席、國家教學名師;獲國家教學成果獎1項、省級教學成果獎3項;主持國家和省級教科研項目20余項、主編出版專著1部、教材8部,發表論文30余篇。
目錄大綱
任務1.1 認識數據分析 2
【知識準備】 2
1.1.1 掌握數據分析的概念 2
1.1.2 掌握數據分析的流程 3
1.1.3 了解數據分析的應用場景 5
任務1.2 熟悉Python數據分析的工具 6
【知識準備】 6
1.2.1 了解數據分析常用工具 6
1.2.2 了解Python在數據分析領域的優勢 7
1.2.3 了解Python數據分析常用庫 7
任務1.3 安裝Python的Anaconda發行版 9
【任務描述】 9
【任務分析】 9
【知識準備】 9
了解Python的Anaconda發行版 9
【任務實現】 10
在Windows系統中安裝Anaconda 10
任務1.4 掌握Jupyter Notebook常用功能 12
【知識準備】 12
1.4.1 掌握Jupyter Notebook的基本功能 12
1.4.2 掌握Jupyter Notebook的高級功能 14
項目小結 17
課後習題 17
項目2 糧食產量分析——NumPy數組計算基礎 19
任務2.1 創建包含年份和糧食產量數據的數組 20
【任務描述】 20
【任務分析】 21
【知識準備】 21
2.1.1 創建數組對象 21
2.1.2 生成隨機數 27
2.1.3 通過索引訪問數組 29
2.1.4 變換數組的形狀 31
【任務實現】 34
任務2.2 分析糧食產量變化情況 36
【任務描述】 36
【任務分析】 36
【知識準備】 36
2.2.1 創建NumPy矩陣 36
2.2.2 ufunc 38
【任務實現】 42
任務2.3 對糧食產量數據進行統計分析 43
【任務描述】 43
【任務分析】 44
【知識準備】 44
2.3.1 讀/寫文件 44
2.3.2 使用函數進行簡單的統計分析 46
【任務實現】 51
項目小結 53
項目實訓 53
實訓1 使用數組比較運算對比超市牛奶價格 53
實訓2 創建6×6的簡單數獨遊戲矩陣 53
課後習題 54
項目3 工業產品產量統計分析——pandas統計分析基礎 56
任務3.1 讀取工業產品產量數據 58
【任務描述】 58
【任務分析】 58
【知識準備】 58
3.1.1 認識pandas庫 58
3.1.2 讀/寫文本文件 59
3.1.3 讀/寫Excel文件 62
3.1.4 讀/寫數據庫數據 64
【任務實現】 67
讀取工業產品產量數據 67
任務3.2 分析工業產品產量數據的基本情況 67
【任務描述】 67
【任務分析】 67
【知識準備】 68
3.2.1 查看DataFrame的基本屬性 68
3.2.2 查、改、增、刪DataFrame數據 69
3.2.3 對DataFrame進行描述性統計 75
【任務實現】 78
任務3.3 分析一定時間周期內工業產品產量變化情況 79
【任務描述】 79
【任務分析】 79
【知識準備】 79
3.3.1 轉換時間字符串為標準的日期時間格式 79
3.3.2 提取時間數據 82
3.3.3 加減時間數據 83
【任務實現】 84
任務3.4 工業產品產量數據統計分析 85
【任務描述】 85
【任務分析】 85
【知識準備】 86
3.4.1 使用groupby()方法拆分數據 86
3.4.2 使用agg()方法聚合數據 88
3.4.3 使用apply()方法聚合數據 90
3.4.4 使用transform()方法聚合數據 91
【任務實現】 92
項目小結 95
項目實訓 95
實訓1 讀取並查看某地區房屋銷售數據的基本信息 95
實訓2 提取房屋售出時間信息並描述房屋價格信息 96
實訓3 使用分組聚合方法分析房屋銷售情況 96
課後習題 97
項目4 電商產品銷售數據預處理——使用pandas進行數據預處理 99
任務4.1 合並訂單信息數據和商品信息數據 100
【任務描述】 100
【任務分析】 101
【知識準備】 101
4.1.1 堆疊合並數據 101
4.1.2 主鍵合並數據 104
4.1.3 重疊合並數據 106
【任務實現】 107
合並訂單信息數據和商品信息數據 107
任務4.2 清洗電商產品銷售數據 108
【任務描述】 108
【任務分析】 108
【知識準備】 109
4.2.1 檢測與處理重復值 109
4.2.2 檢測與處理缺失值 112
4.2.3 檢測與處理異常值 115
【任務實現】 117
任務4.3 標準化電商產品銷售數據 120
【任務描述】 120
【任務分析】 121
【知識準備】 121
4.3.1 離差標準化數據 121
4.3.2 標準差標準化數據 121
4.3.3 小數定標標準化數據 122
【任務實現】 123
對商品售出價格進行標準差標準化 123
任務4.4 變換電商產品銷售數據 124
【任務描述】 124
【任務分析】 124
【知識準備】 124
4.4.1 啞變量處理類別型數據 124
4.4.2 離散化連續型數據 125
【任務實現】 128
項目小結 131
項目實訓 131
實訓1 合並年齡、平均血糖和中風患者信息數據 131
實訓2 刪除年齡異常的數據 132
實訓3 離散化“年齡/歲”特征 132
課後習題 132
項目5 電商銷售可視化分析——Matplotlib、seaborn、pyecharts數據可視化基礎 135
任務5.1 用戶性別、年齡構成及訂單數量變化分析 137
【任務描述】 137
【任務分析】 137
【知識準備】 137
5.1.1 熟悉pyplot繪圖基礎語法與常用參數 137
5.1.2 使用Matplotlib繪制進階圖形 143
【任務實現】 153
任務5.2 用戶年齡特征與電商行為分析 155
【任務描述】 155
【任務分析】 155
【知識準備】 156
5.2.1 熟悉seaborn繪圖基礎 156
5.2.2 使用seaborn繪制基礎圖形 173
【任務實現】 174
分析商品售出價格和用戶年齡的關系 174
任務5.3 年齡段、用戶地區和商品偏好分析 175
【任務描述】 175
【任務分析】 175
【知識準備】 175
5.3.1 熟悉pyecharts繪圖基礎 175
5.3.2 使用pyecharts繪制交互式圖形 180
【任務實現】 185
項目小結 188
項目實訓 189
實訓1 分析學生考試成績特征的分布與分散情況 189
實訓2 分析學生考試成績與各個特征之間的關系 189
實訓3 分析各空氣質量指數之間的相關關系 190
實訓4 繪制交互式圖形 191
課後習題 191
項目6 線上書籍網站數據可視化分析 194
任務6.1 了解線上書籍網站數據可視化分析的背景和方法 195
【知識準備】 195
6.1.1 了解線上書籍網站數據可視化分析的背景 195
6.1.2 認識可視化分析 196
6.1.3 線上書籍網站數據可視化分析的步驟與流程 196
任務6.2 線上書籍網站數據預處理 197
【任務描述】 197
【任務分析】 197
【任務實現】 197
6.2.1 檢測與處理缺失值 197
6.2.2 檢測重復值 198
6.2.3 變換數據的格式和類型 199
任務6.3 線上書籍網站數據可視化分析 200
【任務描述】 200
【任務分析】 200
【任務實現】 200
6.3.1 繪制Top5出版社書籍數量占比餅圖 200
6.3.2 繪制書籍價格區間分布柱形圖 201
6.3.3 繪制不同類型評論數量關系熱力圖 202
6.3.4 繪制2014年—2023年書籍數量和書籍評分3D散點圖 203
6.3.5 撰寫線上書籍網站數據可視化分析報告 204
項目小結 206
項目實訓 206
超市銷售數據可視化分析 206
課後習題 207
項目7 線上書籍網站數據綜合分析——使用scikit-learn構建模型 209
任務7.1 使用sklearn轉換器處理線上書籍網站數據 211
【任務描述】 211
【任務分析】 211
【知識準備】 211
7.1.1 加載datasets模塊中的數據集 211
7.1.2 將數據集劃分為訓練集和測試集 213
7.1.3 使用sklearn轉換器進行數據預處理 214
【任務實現】 217
任務7.2 構建基於線上書籍網站數據的聚類模型 218
【任務描述】 218
【任務分析】 219
【知識準備】 219
7.2.1 使用sklearn估計器構建聚類模型 219
7.2.2 評價聚類模型 222
【任務實現】 224
任務7.3 構建基於線上書籍網站數據的分類模型 226
【任務描述】 226
【任務分析】 226
【知識準備】 226
7.3.1 使用sklearn估計器構建分類模型 226
7.3.2 評價分類模型 228
【任務實現】 230
任務7.4 構建基於線上書籍網站數據的回歸模型 234
【任務描述】 234
【任務分析】 234
【知識準備】 234
7.4.1 使用sklearn估計器構建線性回歸模型 234
7.4.2 評價回歸模型 237
【任務實現】 238
項目小結 241
項目實訓 241
實訓1 使用sklearn處理競標行為數據集 241
實訓2 構建基於競標行為數據集的k-means聚類模型 242
實訓3 構建基於競標行為數據集的支持向量機分類模型 243
實訓4 構建基於競標行為數據集的回歸模型 243
課後習題 243
項目8 餐飲企業綜合分析 246
任務8.1 了解餐飲企業綜合分析的背景和方法 248
【知識準備】 248
8.1.1 了解餐飲企業綜合分析的背景 248
8.1.2 認識餐飲企業綜合分析 249
8.1.3 餐飲企業綜合分析的步驟與流程 249
任務8.2 預處理餐飲企業數據 250
【任務描述】 250
【任務分析】 250
【任務實現】 250
任務8.3 使用k-means聚類算法進行餐飲企業客戶分群 256
【任務描述】 256
【任務分析】 257
【知識準備】 257
了解k-means聚類算法 257
【任務實現】 258
任務8.4 使用決策樹算法和支持向量機算法進行餐飲企業客戶流失預測 261
【任務描述】 261
【任務分析】 261
【知識準備】 261
8.4.1 了解決策樹算法 261
8.4.2 了解支持向量機算法 263
【任務實現】 264
預測餐飲企業客戶流失 264
項目小結 266
項目實訓 266
實訓1 構建支持向量機分類模型預測客戶服裝尺寸 266
實訓2 構建k-means聚類模型進行某App用戶分群 267
實訓3 構建線性回歸模型預測二手汽車價格 269
課後習題 270
項目9 基於TipDM大數據挖掘建模平臺實現客戶流失預測 274
任務9.1 TipDM大數據挖掘建模平臺簡介 275
【知識準備】 275
9.1.1 共享庫 277
9.1.2 數據連接 277
9.1.3 數據集 277
9.1.4 我的工程 278
9.1.5 個人組件 281
任務9.2 使用平臺實現客戶流失預測 281
【任務描述】 281
【任務分析】 281
【任務實現】 281
9.2.1 使用平臺配置客戶流失預測案例的步驟和流程 281
9.2.2 數據源配置 282
9.2.3 數據預處理 284
9.2.4 構建模型 289
項目小結 294
項目實訓 294
預測客戶服裝尺寸 294
課後習題 294