數據挖掘導論, 2/e (Introduction to Data Mining, 2/e)

[美] 陳封能(Pang-Ning Tan) 邁克爾·斯坦巴赫(Michael Steinbach) 阿努吉·長帕坦(Anuj Karpatne) 維平·庫瑪爾(Vipin Kumar) 著

買這商品的人也買了...

相關主題

商品描述

本書從算法的角度介紹數據挖掘所使用的主要原理與技術。為了更好地理解數據挖掘技術如何用於各種類型的數據,研究這些原理與技術是至關重要的。
本書所涵蓋的主題包括:數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和算法,為讀者提供將數據挖掘應用於實際問題所需的必要背景以及方法。


本書特點
針對每個主題,從基本概念和算法的角度展開講解。其中,分類、關聯分析、聚類分析更是切割成介紹章和高級章:介紹章覆蓋基本概念、代表性算法和評估技術內容;高級章深入討論高級概念和算法。
避免錯誤發現主題更是數據挖掘相關教科書中少見的,該主題討論了關於避免虛假結果的統計概念,作為其他章節的補充,強調對數據分析結果的有效性和可重復性的關註。
基礎內容和高級內容漸進的巧妙安排,使讀者能透徹地理解數據挖掘的基礎,同時掌握更多重要的高級技巧。

作者簡介

陳封能(Pang-Ning Tan)密歇根州立大學計算機科學與工程系教授,主要研究方向是數據挖掘、數據庫系統、網絡空間安全、網絡分析等。

目錄大綱

出版者的話
譯者序
前言
第1章 緒論
1.1 什麼是數據挖掘
1.2 數據挖掘要解決的問題
1.3 數據挖掘的起源
1.4 數據挖掘任務
1.5 本書組織結構
文獻註釋
參考文獻
習題
第2章 數據
2.1 數據類型
2.1.1 屬性與度量
2.1.2 數據集的類型
2.2 數據質量
2.2.1 測量和數據收集問題
2.2.2 關於應用的問題
2.3 數據預處理
2.3.1 聚集
2.3.2 抽樣
2.3.3 維歸約
2.3.4 特征子集選擇
2.3.5 特征創建
2.3.6 離散化和二元化
2.3.7 變量變換
2.4 相似性和相異性的度量
2.4.1 基礎
2.4.2 簡單屬性之間的相似度和相異度
2.4.3 數據對象之間的相異度
2.4.4 數據對象之間的相似度
2.4.5 鄰近度度量的例子
2.4.6 互信息
*2.4.7 核函數
*2.4.8 Bregman散度
2.4.9 鄰近度計算問題
2.4.10 選擇正確的鄰近度度量
文獻註釋
參考文獻
習題
第3章 分類:基本概念和技術
3.1 基本概念
3.2 一般的分類框架
3.3 決策樹分類器
3.3.1 構建決策樹的基本算法
3.3.2 表示屬性測試條件的方法
3.3.3 選擇屬性測試條件的方法
3.3.4 決策樹歸納算法
3.3.5 示例:Web機器人檢測
3.3.6 決策樹分類器的特征
3.4 模型的過擬合
3.5 模型選擇
3.5.1 驗證集應用
3.5.2 模型覆雜度合並
3.5.3 統計範圍估計
3.5.4 決策樹的模型選擇
3.6 模型評估
3.6.1 保持方法
3.6.2 交叉驗證
3.7 超參數的使用
3.7.1 超參數選擇
3.7.2 嵌套交叉驗證
3.8 模型選擇和評估中的陷阱
3.8.1 訓練集和測試集之間的重疊
3.8.2 使用驗證錯誤率作為泛化錯誤率
*3.9 模型比較
3.9.1 估計準確率的置信區間
3.9.2 比較兩個模型的性能
文獻註釋
參考文獻
習題
第4章 分類:其他技術
第5章 關聯分析:基本概念和算法
第6章 關聯分析:高級概念
第7章 聚類分析:基本概念和算法
第8章 聚類分析:其他問題與算法
第9章 異常檢測
第10章 避免錯誤發現
索引

最後瀏覽商品 (1)