数据挖掘导论(英文版)

(美) Pang-Ning Tan , Michael Steinbach , Vipin Kumar 著

  • 出版商: 機械工業
  • 出版日期: 2010-09-01
  • 售價: $354
  • 貴賓價: 9.5$336
  • 語言: 英文
  • 頁數: 769
  • ISBN: 7111316703
  • ISBN-13: 9787111316701
  • 相關分類: 英文 English
  • 立即出貨

買這商品的人也買了...

商品描述

本書全面介紹了數據挖掘的理論和方法,著重介紹如何用數據挖掘知識解決各種實際問題,涉及學科領域眾多,適用面廣。書中涵蓋5個主題︰數據、分類、關聯分析、聚類和異常檢測。除異常檢測外,每個主題都包含兩章︰前面一章講述基本概念、代表性算法和評估技術,後面一章較深入地討論高級概念和算法。目的是使讀者在透徹地理解數據挖掘基礎的同時,還能了解更多重要的高級主題。包含大量的圖表、綜合示例和豐富的習題。‧不需要數據庫背景。只需要很少的統計學或數學背景知識。‧網上配套教輔資源豐富,包括PPT、習題解答、數據集等。

商品描述(中文翻譯)

本書全面介紹了數據挖掘的理論和方法,著重介紹如何用數據挖掘知識解決各種實際問題,涉及學科領域眾多,適用面廣。書中涵蓋5個主題︰數據、分類、關聯分析、聚類和異常檢測。除異常檢測外,每個主題都包含兩章︰前面一章講述基本概念、代表性算法和評估技術,後面一章較深入地討論高級概念和算法。目的是使讀者在透徹地理解數據挖掘基礎的同時,還能了解更多重要的高級主題。包含大量的圖表、綜合示例和豐富的習題。不需要數據庫背景。只需要很少的統計學或數學背景知識。網上配套教輔資源豐富,包括PPT、習題解答、數據集等。

目錄大綱

Preface 
1 Introduction 
1.1 What Is Data Mining? 
1.2 Motivating Challenges 
1.3 The Origins of Data Mining 
1.4 Data Mining Tasks 
1.5 Scope and Organization of the Book 
1.6 Bibliographic Notes 
1.7 Exercises 
2 Data 
2.1 Types of Data 
2.1.1 Attributes and Measurement 
2.1.2 Types of Data Sets 
2.2 Data Quality 
2.2.1 Measurement and Data Collection Issues 
2.2.2 Issues Related to Applications 
2.3 Data Preprocessing 
2.3.1 Aggregation 
2.3.2 Sampling 
2.3.3 Dimensionality Reduction 
2.3.4 Feature Subset Selection 
2.3.5 Feature Creation 
2.3.6 Discretization and Binarization 
2.3.7 Variable Transformation 
2.4 Measures of Similarity and Dissimilarity 
2.4.1 Basics 
2.4.2 Similarity and Dissimilarity between Simple Attributes. 
2.4.3 Dissimilarities between Data Objects 
2.4.4 Similarities between Data Objects 
2.4.5 Examples of Proximity Measures 
2.4.6 Issues in Proximity Calculation 
2.4.7 Selecting the Right Proximity Measure 
2.5 Bibliographic Notes 
2.6 Exercises 
3 Exploring Data 
3.1 The Iris Data Set 
3.2 Summary Statistics 
3.2.1 Frequencies and the Mode 
3.2.2 Percentiles 
3.2.3 Measures of Location: Mean and Median 
3.2.4 Measures of Spread: Range and Variance 
3.2.5 Multivariate Summary Statistics 
3.2.6 Other Ways to Summarize the Data 
3.3 Visualization 
3.3.1 Motivations for Visualization 
3.3.2 General Concepts 
3.3.3 Techniques 
3.3.4 Visualizing Higher-Dimensional Data 
3.3.5 Do﹀s and Don﹀ts 
3.4 OLAP and Multidimensional Data Analysis 
3.4.1 Representing Iris Data as a Multidimensional Array 
3.4.2 Multidimensional Data: The General Case 
3.4.3 Analyzing Multidimensional Data 
3.4.4 Final Comments on Multidimensional Data Analysis 
3.5 Bibliographic Notes 
3.6 Exercises 
Classification: 
4 Basic Concepts, Decision Trees, and Model Evaluation 
4.1 Preliminaries 
4.2 General Approach to Solving a Classification Problem 
4.3 Decision Tree Induction 
4.3.1 How a Decision Tree Works 
4.3.2 How to Build a Decision Tree 
4.3.3 Methods for Expressing Attribute Test Conditions 
4.3.4 Measures for Selecting the Best Split 
4.3.5 Algorithm for Decision Tree Induction 
4.3.6 An Example: Web Robot Detection 
4.3.7 Characteristics of Decision Tree Induction 
4.4 Model Overfitting 
4.4.1 Overfitting Due to Presence of Noise 
4.4.2 Overfitting Due to Lack of Representative Samples 
4.4.3 Overfitting and the Multiple Comparison Procedure 
4.4.4 Estimation of Generalization Errors 
4.4.5 Handling Overfitting in Decision Tree Induction 
4.5 Evaluating the Performance of a Classifier 
4.5.1 Holdout Method 
4.5.2 Random Subsampling 
4.5.3 Cross-Validation 
4.5.4 Bootstrap 
4.6 Methods for Comparing Classifiers 
4.6.1 Estimating a Confidence Interval for Accuracy 
4.6.2 Comparing the Performance of Two Models 
4.6.3 Comparing the Performance of Two Classifiers 
4.7 Bibliographic Notes 
4.8 Exercises 
5 Classification: Alternative Techniques 
6 Association Analysis: Basic Concepts and Algorithms 
7 Association Analysis:Advanced Concepts 
8 Cluster Analysis:Basic Concepts and Algorithms 
9 Cluster Analysis:Additional Issues and Algorithms 
10 Anomaly Detection 
Appendix A Linear Algebra 
Appendix B Dimensionality Reduction 
Appendix C Probability and Statistics 
Appendix D Regression 
Appendix E Optimization 
Author Index 
Subject Index 
Copyright Permissions

目錄大綱(中文翻譯)

前言
1 引言
1.1 什麼是數據挖掘?
1.2 激發挑戰
1.3 數據挖掘的起源
1.4 數據挖掘任務
1.5 本書的範圍和組織
1.6 參考文獻
1.7 練習

2 數據
2.1 數據類型
2.1.1 屬性和測量
2.1.2 數據集類型
2.2 數據質量
2.2.1 測量和數據收集問題
2.2.2 應用相關問題
2.3 數據預處理
2.3.1 聚合
2.3.2 抽樣
2.3.3 維度降低
2.3.4 特徵子集選擇
2.3.5 特徵創建
2.3.6 離散化和二值化
2.3.7 變量轉換
2.4 相似性和差異性的度量
2.4.1 基礎知識
2.4.2 簡單屬性之間的相似性和差異性
2.4.3 數據對象之間的差異性
2.4.4 數據對象之間的相似性
2.4.5 接近度度量的示例
2.4.6 接近度計算中的問題
2.4.7 選擇正確的接近度度量
2.5 參考文獻
2.6 練習

3 探索數據
3.1 鳶尾花數據集
3.2 摘要統計
3.2.1 頻率和模式
3.2.2 百分位數
3.2.3 位置的度量:平均值和中位數
3.2.4 值域和變異數的度量
3.2.5 多變量摘要統計
3.2.6 其他摘要數據的方法
3.3 可視化
3.3.1 可視化的動機
3.3.2 一般概念
3.3.3 技術
3.3.4 可視化高維數據
3.3.5 做和不做的事情
3.4 OLAP和多維數據分析
3.4.1 將鳶尾花數據表示為多維數組
3.4.2 多維數據:一般情況
3.4.3 分析多維數據
3.4.4 對多維數據分析的最終評論
3.5 參考文獻
3.6 練習

分類:
4 基本概念、決策樹和模型評估
4.1 預備知識
4.2 解決分類問題的一般方法
4.3 決策樹歸納
4.3.1 決策樹的工作原理
4.3.2 如何構建決策樹
4.3.3 表達屬性測試條件的方法
4.3.4 選擇最佳分割的度量
4.3.5 決策樹歸納算法
4.3.6 示例:網絡機器人檢測
4.3.7 決策樹歸納的特點
4.4 模型過度擬合
4.4.1 噪聲存在導致過度擬合
4.4.2 由於缺乏代表性樣本導致過度擬合
4.4.3 過度擬合和多重比較程序
4.4.4 泛化錯誤的估計
4.4.5 處理決策樹歸納中的過度擬合
4.5 評估分類器的性能
4.5.1 留出法
4.5.2 隨機子抽樣
4.5.3 交叉驗證
4.5.4 自助法
4.6 比較分類器的方法
4.6.1 估計準確率的置信區間
4.6.2 比較兩個模型的性能
4.6.3 比較兩個分類器的性能
4.7 參考文獻
4.8 練習

5 分類:替代技術
6 關聯分析:基本概念和算法
7