資料採擷技術與工程實踐 大数据技术丛书:数据挖掘技术与工程实践

洪鬆林 (Hong Song Lin), 莊映輝, 李堃

  • 出版商: 機械工業
  • 出版日期: 2014-10-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • 頁數: 367
  • 裝訂: 平裝
  • ISBN: 7111480767
  • ISBN-13: 9787111480761

已絕版

買這商品的人也買了...

商品描述

 

<內容簡介>

洪鬆林、莊映輝、李?所著《數據挖掘技術與工程實踐/大數據技術叢書》系統講解數據挖掘應用系統的實現方法,包含數據挖掘的基本概念與系統實現的全過程。本書作者根據自己20多年數據挖掘方面的工程經驗,總結了數據挖掘的理論知識和實踐經驗,提供了大量一線資料。本書首先介紹數據挖掘的基本概念和誤區,然後根據實際工作流程來講解如何實現一個數據挖掘應用系統,最後總結了數據挖掘的常用工具。數據挖掘應用系統實現的流程包括數據的探索與準備、演算法的應用、案例分析、行業應用特點、應用系統的開發、應用系統的充分使用等。書中介紹了大量數據挖掘的相關演算法,包括:相關因子演算法、聚類演算法、分類演算法、回歸與測試演算法等,不僅列舉了詳細示例,還介紹了演算法在工程實踐中的具體應用,特別是總結了自己獨特的一些新演算法.例如秩相關因子選擇演算法、矢量相關因子選擇演算法、密度分佈聚類演算法、概率特徵模型演算法等。還剖析了幾個熱門領域的實際應用,涉及醫藥學、信息安全等領域的應用。
本書可供數據挖掘、數據倉庫、數據庫等領域的技術人員參考,也可供想建立智能計算系統的企業信息系統管理人員參考。

 

<章節目錄>

前言
第1章  數據挖掘應用緒論
  1.1  認識數據挖掘
    1.1.1  數據挖掘概念
    1.1.2  數據挖掘與生活
    1.1.3  數據挖掘與知識
  1.2  數據挖掘應用基礎
    1.2.1  事物與維度
    1.2.2  分佈與關係
    1.2.3  描繪與預測
    1.2.4  現象和知識
    1.2.5  規律與因果
  1.3  數據挖掘應用系統工程
    1.3.1  數據層
    1.3.2  演算法層
    1.3.3  應用層
  1.4  數據挖掘應用體會
    1.4.1  項目關鍵點
    1.4.2  技術與應用創新
    1.4.3  經驗積累與應用
  1.5  無限三維嵌套空間假說
    1.5.1  一維空間
    1.5.2  二維空間
    1.5.3  三維空間
    1.5.4  突破三維空間
    1.5.5  五維空間
    1.5.6  六維空間
  1.6  本章小結
第2章  數據探索與準備
  2.1  數據關係探索
    2.1.1  業務發現
    2.1.2  關係發現
    2.1.3  數據質量探索
    2.1.4  數據整合
  2.2  數據特徵探索
    2.2.1  數據的統計學特徵
    2.2.2  統計學特徵應用
  2.3  數據選擇
    2.3.1  適當的數據規模
    2.3.2  數據的代表性
    2.3.3  數據的選取
  2.4  數據處理
    2.4.1  數據標準化
    2.4.2  數據離散化
  2.5  統計學演算法的數量條件
    2.5.1  樣本量估計概念
    2.5.2  單樣本總體均值比較的樣本量估計(T-Test)
    2.5.3  兩樣本總體均值比較的樣本量估計(
    2.5.4  多樣本總體均值比較的樣本量估計(
    2.5.5  區組設計多樣本總體均值比較的樣本量估計(F-Test)

    2.5.6  直線回歸與相關的樣本量估計
    2.5.7  對照分析的樣本量估計
  2.6  數據探索應用
    2.6.1  檢驗項的疾病分佈
    2.6.2  疾病中檢驗項的分佈
    2.6.3  成對檢驗項的相關分析
    2.6.4  兩種藥物的應用分析
  2.7  本章小結
第3章  數據挖掘應用演算法
  3.1  聚類分析
    3.1.1  劃分聚類演算法(K均值)
    3.1.2  層次聚類演算法(組平均)
    3.1.3  密度聚類演算法
  3.2  特性選擇
    3.2.1  特性選擇概念
    3.2.2  線性相關演算法
    3.2.3  相關因子SRCF演算法
  3.3  特徵抽取
    3.3.1  主成分分析演算法
    3.3.2  因子分析演算法
    3.3.3  非負矩陣因子分解NMF演算法
  3.4  關聯規則
    3.4.1  關聯規則概念
    3.4.2  Apriori演算法
    3.4.3  FP樹頻集演算法
    3.4.4  提升
  3.5  分類和預測
    3.5.1  支持向量機
    3.5.2  Logistic回歸演算法
    3.5.3  樸素貝葉斯分類演算法
    3.5.4  決策樹
    3.5.5  人工神經網絡
    3.5.6  分類與聚類的關係
  3.6  時間序列
    3.6.1  灰色系統預測模型
    3.6.2  ARIMA模型預測
  3.7  本章小結
第4章  數據挖掘應用案例
  4.1  特性選擇的應用
    4.1.1  數據整合
    4.1.2  數據描繪
    4.1.3  數據標準化
    4.1.4  特性選擇探索
  4.2  分類模型的應用——演算法比較
    4.2.1  數據整合
    4.2.2  數據描繪
    4.2.3  數據標準化
    4.2.4  特性選擇探索
    4.2.5  分類模型
  4.3  分類模型的應用——網絡異常偵測

    4.3.1  電腦網絡異常行為
    4.3.2  網絡異常數據模型
    4.3.3  分類模型演算法應用
  4.4  演算法的綜合應用——腫瘤標誌物的研究
    4.4.1  樣本選取
    4.4.2  癌胚抗原臨床特徵主題分析
    4.4.3  癌胚抗原臨床特徵規則分析
    4.4.4  癌胚抗原臨床特徵規則的比較分析
    4.4.5  癌胚抗原相關因子分析
    4.4.6  不同等級癌胚抗原組差異分析
  4.5  數據挖掘在其他領域中的應用
  4.6  本章小結
第5章  數據挖掘行業應用原理
  5.1  傳統醫學科研方法的現狀
    5.1.1  傳統醫學科研的命題與假說
    5.1.2  傳統醫學科研的數據應用
    5.1.3  傳統的醫學科研的統計學應用
    5.1.4  傳統醫學科研的流程
  5.2  智能醫學科研系統的需求
    5.2.1  臨床醫學科研的問題
    5.2.2  臨床醫學科研的解決思路
  5.3  智能醫學科研系統的設計思想
    5.3.1  科研立題
    5.3.2  科研設計與統計分析
    5.3.3  樣本數據收集與分析
  5.4  智能醫學科研系統的核心技術方法
  5.5  智能醫學科研系統的科研數據倉庫建設
    5.5.1  醫學科研數據倉庫建設的技術方法
    5.5.2  醫學科研數據倉庫的建設過程
    5.5.3  科研數據倉庫的數據安全
  5.6  智能醫學科研系統的核心功能設計
  5.7  智能醫學科研系統的整體功能設計
    5.7.1  智能醫學科研系統主要功能
    5.7.2  智能醫學科研系統的模塊設計和應用實現
    5.7.3  智能醫學科研系統的評估方法
  5.8  智能醫學科研系統的應用價值
  5.9  本章小結
第6章  數據挖掘應用系統的開發
  6.1  數據挖掘應用系統的意義
  6.2  IMRS系統設計
    6.2.1  對數據源的分析
    6.2.2  數據挖掘應用系統IMRS的總體設計
  6.3  IMRS異常偵測模型的開發
    6.3.1  異常偵測模型的功能展示
    6.3.2  數據挖掘技術開發要點
  6.4  IMRS特徵抽取模型的開發
    6.4.1  特徵抽取模型的功能展示
    6.4.2  數據挖掘技術開發要點
  6.5  IMRS智能統計模型的開發
    6.5.1  回歸模型的開發實現

    6.5.2  線性相關模型的開發實現
  6.6  IMRS的演算法開發
    6.6.1  相關因子演算法SRCF的實現
    6.6.2  樸素貝葉斯分類演算法的實現
  6.7  本章小結
第7章  數據挖掘應用系統的應用
  7.1  分佈探索
    7.1.1  兩維度聚類模型應用
    7.1.2  高維度聚類模型應用
  7.2  關係探索
    7.2.1  關聯規則的應用
    7.2.2  特性選擇的應用
  7.3  特徵探索
    7.3.1  不穩定心絞痛的特徵總結
    7.3.2  動脈硬化心臟病的臨床特徵
  7.4  異常探索
    7.4.1  生理指標的異常偵測
    7.4.2  異常偵測模型的比較
  7.5  推測探索
  7.6  應用系統的高級應用
    7.6.1  異常偵測的高級用法
    7.6.2  關聯規則的高級應用
  7.7  本章小結
第8章  數據挖掘工具的應用
  8.1  應用Oracle Data
    8.1.1  ODM數據挖掘流程
    8.1.2  ODM演算法模型
    8.1.3  ODM演算法應用
  8.2  應用IBM SPSS M
    8.2.1  IBM SPSS Modeler介紹
    8.2.2  SPSS Modeler獨立應用
    8.2.3  SPSS Modeler與應用系統的聯合應用
  8.3  本章小結
參考文獻

<作者介紹>

(加)洪鬆林//莊映輝
福安易數據技術(天津)有限公司(F&E DATA TECHNOLOGY CORP.)創始人,外國專家局引智技術專家,加拿大OCP認證專家,有20年智能計算(數據倉庫、商務智能及數據挖掘)方面的研究、設計、開發和培訓經驗。掌握北美先進的項目經驗,曾在加拿大安大略省衛生部(OMH)、蒙特利爾銀行(BM0)、加拿大研科電訊公司(TELUS)、安省高教委(OCAS)等大型機構參與多個大型智能計算項目。近年來在國內主持多個智能計算產品的總體設計和研發工作,將北美的智能計算技術及業務經驗與中國的專業需求和數據環境有效地結合起來,開發了以數據倉庫、數據挖掘和數據統計為技術核心的智能數據分析產品,並在北京、天津等地得到成功應用。