相關主題
商品描述
本書系統介紹數據科學 核心理論與技術,融合了數 學、統計學和計算機科學等 多學科知識,旨在構建完整 的數據科學知識體系。全書 共15章,主要內容包括數據 預處理、經典機器學習模型 (回歸、分類、聚類、集成 )、關聯規則挖掘、特征工 程(降維與特征選擇)、 大期望算法、概率圖模型、 深度學習、文本分析、圖與 網絡分析以及分布式計算等 核心模塊。特別值得關註的 是,本書對當前熱點技術如 Transformer、BERT、圖神 經網絡等進行了講解,並設 有專門的文本分析和圖與網 絡分析章節。此外,書中包 含豐富的附錄內容,涵蓋了 矩陣運算、概率論、優化算 法等數學基礎,為讀者提供 了必要的知識儲備。 本書主要面向高等院校 數據科學與大數據技術專業 的學生,可作為專業核心課 程的教材,同時也適合相關 領域的研究人員和工程技術 人員參考。對於希望系統掌 握數據科學技術、具備解決 實際數據問題能力的讀者來 說,本書提供了從基礎到前 沿的完整學習路徑。通過本 書的學習,讀者能夠建立紮 實的數據科學理論基礎,並 獲得寶貴的實踐經驗。
目錄大綱
第1章 緒論
1.1 數據科學的基本內容
1.1.1 數據分析的中心問題
1.1.2 數據的數學結構
1.1.3 數據分析的主要困難
1.1.4 算法的重要性
1.2 數據科學對學科發展的影響
1.2.1 對傳統學科的沖擊
1.2.2 新學科的誕生:計算廣告學
1.3 數據科學對科學研究的影響
1.4 數據科學的課程體系
1.5 本書結構
第2章 數據預處理
2.1 特征編碼
2.1.1 數字編碼
2.1.2 One-Hot編碼
2.2 缺失值處理
2.3 數據標準化
2.3.1 Z-score標準化
2.3.2 Min-Max標準化
2.3.3 小數定標標準化
2.3.4 Logistic標準化
2.3.5 不同標準化方法的對比
2.4 特征離散化
2.4.1 等距離散化
2.4.2 等頻離散化
2.4.3 聚類離散化
2.4.4 信息增益離散化
2.4.5 卡方離散化
2.4.6 類別屬性相互依賴 化
2.4.7 小結
2.5 離群值檢測
2.5.1 基於統計的方法
2.5.2 基於近鄰的方法
2.5.3 小結
2.6 其他預處理方法
案例與實戰
第3章 回歸模型
3.1 線性回歸
3.1.1 一元線性回歸
3.1.2 多元線性回歸
3.1.3 小結
3.2 線性回歸正則化
3.2.1 嶺回歸和LASSO
3.2.2 其他正則化的線性回歸模型
3.3 非線性回歸
3.3.1 樣條回歸
3.3.2 徑向基函數網絡
案例與實戰
第4章 分類模型
