數據科學技術與應用——基於Python實現(第3版)

宋暉,劉曉強

相關主題

商品描述

本書內容涵蓋數據科學、大數據和數據智能的基礎知識,圍繞數據科學的工作流程,詳細介紹了從數據中獲取知識的方法和技術,包括數據采集、數據整理與探索、數據可視化和數據建模預測等。本書介紹了基於人工智能技術實現文本、圖像、語音、序列等多模態數據分析的方法,引入了大模型輔助數據分析、數據智能體等新技術。全書設計收集了多個數據應用案例,采用Python語言及相關科學計算工具包實現數據分析過程,通過實際案例幫助讀者培養數據思維,進而能夠運用統計學、人工智能等先進技術驅動數據來解決實際問題。 本書配套資源豐富,各章均配有綜合練習題和一定數量的思考與練習,掃描二維碼可以閱讀相關文檔或觀看講解視頻,登錄華信教育資源網可以下載電子課件、教學和實驗案例文件以及參考答案等。

目錄大綱

第1章 數據科學基礎 1
1.1 數據科學概述 1
1.1.1 數據思維 1
1.1.2 數據科學的知識結構 3
1.1.3 數據科學的工作流程 4
1.2 數據科學的關鍵技術 5
1.2.1 數據采集 5
1.2.2 數據預處理 7
1.2.3 數據存儲與管理 8
1.2.4 數據分析 9
1.3 大數據與數據智能 9
1.3.1 大數據與數據科學 9
1.3.2 人工智能與數據科學 10
1.3.3 數據智能 11
1.4 Python數據分析工具 12
1.4.1 科學計算集成環境 12
1.4.2 Python編譯環境 13
1.4.3 Jupyter Notebook 13
1.5 Python語言基礎 15
1.5.1 常用數據類型 15
1.5.2 流程控制 17
1.5.3 函數和方法庫 19
綜合練習題 20
第2章 多維數據結構與運算 21
2.1 多維數組對象 21
2.1.1 多維數組(張量) 21
2.1.2 一維數組對象 22
2.1.3 二維數組對象 24
2.1.4 創建多維數組的常用函數 26
2.2 多維數組運算 28
2.2.1 基本算術運算 29
2.2.2 函數和矩陣運算 30
2.2.3 隨機數生成函數 32
2.3 案例:隨機遊走軌跡模擬 33
綜合練習題 36
第3章 數據匯總與統計 37
3.1 統計的基本概念 37
3.1.1 統計的含義 37
3.1.2 常用統計量 38
3.2 pandas數據結構 39
3.2.1 Series對象 40
3.2.2 Series對象的數據訪問 41
3.2.3 DataFrame對象 43
3.2.4 DataFrame對象的數據訪問 44
3.3 數據文件的讀/寫 48
3.3.1 CSV文件和TXT文件 48
3.3.2 Excel文件 50
3.4 數據清洗 51
3.4.1 缺失數據處理 52
3.4.2 去除重復數據 54
3.5 數據規整化 55
3.5.1 數據合並 55
3.5.2 數據排序 57
3.6 統計分析 59
3.6.1 通用函數與運算 59
3.6.2 統計函數 60
3.6.3 相關性分析 62
3.6.4 案例:問卷調查反饋表分析 63
綜合練習題 65
第4章 數據可視化 67
4.1 Python繪圖基礎 67
4.1.1 認識基本圖形 67
4.1.2 pandas快速繪圖 67
4.1.3 Matplotlib精細繪圖 69
4.2 可視化數據探索 74
4.2.1 繪制常用圖形 74
4.2.2 繪制復雜統計圖表 86
4.2.3 使用pyecharts繪制交互式圖表 88
綜合練習題 91
第5章 機器學習建模分析 94
5.1 機器學習概述 94
5.1.1 機器學習與人工智能 94
5.1.2 Python機器學習方法庫 96
5.2 回歸分析 96
5.2.1 回歸分析原理 96
5.2.2 回歸分析實現 97
5.2.3 回歸分析性能評估 99
5.3 分類分析 102
5.3.1 分類學習原理 102
5.3.2 決策樹 103
5.3.3 貝葉斯算法 107
5.4 聚類分析 111
5.4.1 聚類任務 111
5.4.2 K-means算法 112
5.4.3 聚類性能評估 115
5.5 數據降維 117
5.5.1 數據降維方法 117
5.5.2 主成分分析 118
5.6 集成學習 120
5.6.1 隨機森林算法 121
5.6.2 梯度提升機類算法 121
5.6.3 集成學習建模分析 122
綜合練習題 124
第6章 神經網絡與深度學習建模分析 125
6.1 神經網絡概述 125
6.1.1 神經元與感知器 125
6.1.2 神經網絡模型 126
6.1.3 神經網絡分類實現 127
6.2 深度學習 130
6.2.1 深度學習的基本原理 130
6.2.2 深度學習框架Keras 131
6.2.3 深度學習建模分析實例 133
綜合練習題 135
第7章 多模態數據分析 136
7.1 文本數據分析 136
7.1.1 文本處理的常見任務 136
7.1.2 中文分詞和詞性標註 137
7.1.3 文本向量化表示 138
7.1.4 案例:垃圾郵件識別 141
7.2 時序數據分析 146
7.2.1 時序數據的特性 146
7.2.2 時序數據分析方法 147
7.2.3 案例:溫度預測 148
7.2.4 語音識別技術 151
7.3 圖像數據分析 153
7.3.1 常見的圖像數據分析任務 153
7.3.2 數字圖像的表示 154
7.3.3 案例:CNN圖像分類 156
7.4 大模型輔助數據分析 161
7.4.1 大模型概述 161
7.4.2 大模型輔助數據分析應用 163
7.4.3 多模態大模型 166
綜合練習題 171
第8章 大數據技術 172
8.1 大數據概述 172
8.1.1 大數據的特點 172
8.1.2 大數據相關技術 174
8.1.3 大數據基礎設施 175
8.2 分布式計算框架 177
8.2.1 Hadoop概述 177
8.2.2 MapReduce分布式計算 179
8.2.3 Spark生態系統 182
8.2.4 Spark分布式計算 183
8.3 分布式建模分析工具 184
8.3.1 Hadoop Mahout 184
8.3.2 Spark MLlib 185
8.3.3 Spark MLlib建模分析 186
綜合練習題 187

第9章 數據智能 188
9.1 數據智能概述 188
9.1.1 數據智能技術框架 188
9.1.2 以數據為中心的人工智能 189
9.1.3 數據智能應用場景 190
9.2 數據智能體 191
9.2.1 AI Agents 191
9.2.2 數據智能體 195
綜合練習題 197
參考文獻 198