Python數據分析與挖掘(微課視頻版)
魏偉一
- 出版商: 清華大學
- 出版日期: 2025-05-01
- 售價: $359
- 語言: 簡體中文
- ISBN: 7302687021
- ISBN-13: 9787302687023
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
目錄
掃一掃
源碼下載
第1章緒論
1.1數據分析與數據挖掘
1.1.1數據分析
1.1.2數據挖掘
1.1.3數據分析與數據挖掘的聯系
1.2數據挖掘的主要任務
1.2.1關聯分析
1.2.2數據的預測建模
1.2.3聚類分析
1.2.4離群點檢測
1.3數據挖掘的數據源
1.3.1數據庫數據
1.3.2數據倉庫
1.3.3事務數據庫
1.3.4其他類型數據
1.4數據挖掘使用的技術
1.4.1統計學
1.4.2機器學習
1.4.3數據庫系統與數據倉庫
1.5數據挖掘存在的主要問題
1.6數據挖掘建模常用的工具
1.6.1商用工具
1.6.2開源工具
1.7為何選用Python進行數據挖掘
1.8Python數據挖掘常用的庫
1.9Jupyter Notebook的使用
1.10小結
習題1
第2章Python編程基礎
2.1Python語言的基本語法
2.1.1基礎數據類型
2.1.2變量和賦值
2.1.3運算符和表達式
2.1.4字符串
2.1.5流程控制
2.2內置數據類型
2.2.1列表
2.2.2元組
2.2.3字典
2.2.4集合
2.3函數
2.3.1函數的定義
2.3.2lambda函數
2.4文件操作
2.4.1文件處理過程
2.4.2數據的讀取方法
2.4.3讀取CSV文件
2.4.4文件的寫入與關閉
2.5小結
習題2
本章實訓
第3章NumPy數值計算
3.1NumPy多維數組
3.1.1創建數組對象
3.1.2ndarray對象的屬性和數據轉換
3.1.3生成隨機數
3.1.4數組變換
3.2數組的索引和切片
3.2.1一維數組的索引
3.2.2多維數組的索引
3.3數組的運算
3.3.1數組和標量間的運算
3.3.2ufunc函數
3.3.3條件邏輯運算
3.4數組的讀/寫
3.4.1讀/寫二進制文件
3.4.2讀/寫文本文件
3.4.3讀取CSV文件
3.5NumPy中的數據統計與分析
3.5.1排序
3.5.2重復數據與去重
3.5.3常用統計函數
3.6小結
習題3
本章實訓
第4章Pandas數據分析
4.1Pandas中的數據結構
4.1.1Series
4.1.2DataFrame
4.1.3索引對象
4.1.4查看DataFrame的常用屬性
4.2數據的載入
4.2.1讀/寫文本文件
4.2.2讀/寫Excel文件
4.2.3讀/寫JSON數據
4.2.4讀取數據庫文件
4.3Pandas索引操作
4.3.1重新索引
4.3.2更換索引
4.4DataFrame數據的查詢與編輯
4.4.1DataFrame數據的查詢
4.4.2DataFrame數據的編輯
4.4.3DataFrame數據的變換
4.5Pandas數據運算
4.5.1算術運算
4.5.2DataFrame數據的比較
4.5.3函數應用和映射
4.5.4排序
4.5.5匯總與統計
4.6數據分組與聚合
4.6.1數據分組
4.6.2數據聚合
4.6.3分組運算
4.7數據透視表
4.7.1透視表
4.7.2交叉表
4.8Pandas可視化
4.8.1線形圖
4.8.2柱狀圖
4.8.3直方圖
4.8.4密度圖
4.8.5散點圖
4.9小結
習題4
本章實訓
第5章Python數據可視化
5.1Matplotlib數據可視化
5.1.1Matplotlib繪圖基礎
5.1.2設置pyplot的rc參數
5.1.3繪圖的填充
5.1.4文本註解
5.1.5在繪圖中顯示公式
5.1.6pyplot中的常用繪圖
5.1.7詞雲
5.2Seaborn數據可視化
5.2.1風格設置
5.2.2Seaborn中的常用繪圖
5.3pyecharts數據可視化
5.3.1pyecharts的使用方法
5.3.2pyecharts中的常用繪圖
5.4小結
習題5
本章實訓
第6章認識數據
6.1屬性及其類型
6.1.1屬性
6.1.2屬性的類型
6.2數據的基本統計描述
6.2.1中心趨勢度量
6.2.2數據散布度量
6.3數據可視化
6.3.1基於像素的可視化技術
6.3.2幾何投影可視化技術
6.3.3基於圖符的可視化技術
6.3.4層次可視化技術
6.3.5可視化復雜對象和關系
6.3.6高維數據可視化
6.3.7Python可視化
6.4數據對象的相似性度量
6.4.1數據矩陣和相異性矩陣
6.4.2標稱屬性的相似性度量
6.4.3二元屬性的相似性度量
6.4.4數值屬性的相似性度量
6.4.5序數屬性的相似性度量
6.4.6混合類型屬性的相似性
6.4.7余弦相似性
6.4.8距離度量的Python實現
6.5小結
習題6
本章實訓
第7章數據預處理
7.1數據預處理的必要性
7.1.1原始數據中存在的問題
7.1.2數據質量要求
7.2數據清洗
7.2.1數據清洗方法
7.2.2使用Pandas進行數據清洗
7.3數據集成
7.3.1數據集成過程中的關鍵問題
7.3.2使用Pandas合並數據
7.4數據標準化
7.4.1離差標準化數據
7.4.2標準差標準化數據
7.5數據歸約
7.5.1維歸約
7.5.2數量歸約
7.5.3數據壓縮
7.6數據變換與數據離散化
7.6.1數據變換的策略
7.6.2Python數據變換與離散化
7.7使用scikitlearn進行數據預處理
7.8小結
習題7
本章實訓
第8章回歸分析
8.1回歸分析概述
8.1.1回歸分析的定義與分類
8.1.2回歸分析的過程
8.1.3回歸算法的評價
8.2一元線性回歸分析
8.2.1一元線性回歸方法
8.2.2一元線性回歸模型的參數估計
8.2.3一元線性回歸模型的誤差項方差估計
8.2.4一元線性回歸模型的統計檢驗
8.2.5一元線性回歸的Python實現
8.3多元線性回歸
8.3.1多元線性回歸模型
8.3.2多元線性回歸模型的參數估計
8.3.3多元線性回歸的假設檢驗及評價
8.3.4多元線性回歸的Python實現
8.4邏輯回歸
8.4.1邏輯回歸模型
8.4.2邏輯回歸的Python實現
8.5其他回歸分析
8.5.1多項式回歸
8.5.2嶺回歸
8.5.3LASSO回歸
8.5.4彈性網絡回歸
8.5.5逐步回歸
8.6小結
習題8
本章實訓
第9章關聯規則挖掘
9.1關聯規則分析概述
9.2頻繁項集、閉項集和關聯規則
9.3頻繁項集挖掘方法
9.3.1Apriori算法
9.3.2由頻繁項集產生關聯規則
9.3.3提高Apriori算法的效率
9.3.4頻繁模式增長算法
9.3.5使用垂直數據格式挖掘頻繁項集
9.4關聯模式評估方法
9.4.1強關聯規則不一定是有趣的
9.4.2從關聯分析到相關分析
9.5Apriori算法的應用
9.6小結
習題9
本章實訓
第10章分類
10.1分類概述
10.2決策樹歸納
10.2.1決策樹的原理
10.2.2ID3算法
10.2.3C4.5算法
10.2.4CART算法
10.2.5樹的剪枝
10.2.6決策樹的應用
10.3K近鄰算法
10.3.1算法的原理
10.3.2Python算法的實現
10.4支持向量機
10.4.1算法的原理
10.4.2Python算法的實現
10.5貝葉斯分類
10.5.1算法的原理
10.5.2樸素貝葉斯分類
10.5.3高斯樸素貝葉斯分類
10.5.4多項式樸素貝葉斯分類
10.5.5樸素貝葉斯分類的應用
10.6神經網絡
10.6.1神經元模型
10.6.2感知機與多層網絡
10.6.3BP神經網絡
10.6.4BP神經網絡的應用
10.7模型評估與選擇
10.7.1分類器性能的度量
10.7.2模型選擇
10.8組合分類
10.8.1組合分類方法簡介
10.8.2裝袋
10.8.3提升和AdaBoost
10.8.4隨機森林
10.9小結
習題10
本章實訓
第11章聚類
11.1聚類分析概述
11.1.1聚類分析的概念
11.1.2聚類算法的分類
11.2KMeans聚類
11.2.1算法的原理
11.2.2算法的改進
11.2.3KMeans算法的實現
11.3層次聚類
11.3.1算法的原理
11.3.2簇間的距離度量
11.3.3凝聚層次聚類
11.3.4分裂層次聚類
11.3.5層次聚類的應用
11.4基於密度的聚類
11.4.1算法的原理
11.4.2算法的改進
11.4.3DBSCAN算法的實現
11.5其他聚類方法
11.5.1STING聚類
11.5.2概念聚類
11.5.3模糊聚類
11.5.4高斯混合模型聚類
11.5.5近鄰傳播聚類
11.6聚類評估
11.6.1聚類趨勢的估計
11.6.2聚類簇數的確定
11.6.3聚類質量的測定
11.7小結
習題11
本章實訓
第12章離群點檢測
12.1離群點概述
12.1.1離群點的概念
12.1.2離群點的類型
12.1.3離群點檢測的挑戰
12.2離群點的檢測
12.2.1基於統計學的離群點檢測
12.2.2基於鄰近性的離群點檢測
12.2.3基於聚類的離群點檢測
12.2.4基於分類的離群點檢測
12.3scikitlearn中的異常檢測方法
12.4小結
習題12
本章實訓
第13章文本和時序數據挖掘
13.1文本數據挖掘
13.1.1文本挖掘概述
13.1.2文本挖掘的過程與任務
13.1.3文本分析與挖掘的主要方法
13.2時序數據挖掘
13.2.1時間序列和時間序列數據分析
13.2.2時間序列平穩性和隨機性判定
13.2.3自回歸滑動平均(ARMA)模型
13.2.4差分整合移動平均自回歸(ARIMA)模型
13.2.5季節性差分自回歸移動平均(SARIMA)模型
13.3小結
習題13
參考文獻