基於機器學習的數據缺失值填補:理論與方法

賴曉晨,張立勇,劉輝,吳霞

  • 出版商: 機械工業
  • 出版日期: 2020-08-27
  • 定價: $474
  • 售價: 8.5$403
  • 語言: 簡體中文
  • 頁數: 248
  • 裝訂: 平裝
  • ISBN: 7111663055
  • ISBN-13: 9787111663058
  • 相關分類: Machine Learning
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

這是一部講解如何基於機器學習技術實現數據缺失值填補的專著,
與傳統的基於統計學的缺失值填補方法相比,效率上得到了較大的提升。
作者基於多年的研究和實踐成果,
創新性地提出了基於神經網絡的缺失值填補方法和基於TS模型的缺失值填補方法。

全書共8章,可分為4個部分。
第一部分(第1~3章):首先介紹缺失值填補領域的缺失數據機制、基本概念、性能度量等基礎知識,
隨後詳細闡述目前基於統計學、機器學習的缺失值填補理論與方法。
第二部分(第4~5章):對目前神經網絡在缺失值填補領域的研究成果進行歸納總結,
並從網絡模型、填補方案角度闡述神經網絡填補方法的設計及應用。
第三部分(第6~7章):詳細介紹面向不完整數據的TS建模過程,隨後通過特徵選擇算法處理TS建模中的特徵冗餘問題,
並從前提參數優化和結論參數優化兩個角度改進TS模型。
第四部分(第8章):以缺失值填補方法在我國貧困問題研究中的應用為例,
展現缺失值填補方法的現實意義。

作者簡介

賴曉晨

大連理工大學軟件學院副教授、博士、碩士生導師,“寶鋼教育”優秀教師獎獲得者,中國計算機學會會員。
主要科研方向為人工智能、嵌入式系統,參與多項國家自然科學基金、國家重大研發計劃、科技部973項目、
863項目研究,發表SCI/EI收錄學術論文20餘篇,獲得遼寧省技術發明三等獎1次。
先後主持國家ji教改與課程建設項目3項、省部級項目14項、主持國家金課一門。
與Google、Intel、ARM、Xilinx等國際著名公司有長期教學合作關係。

張立勇

大連理工大學控制科學與工程學院講師、博士、碩士生導師。
主要科研方向為數據挖掘與機器學習,參與多項國家自然科學基金、國家重點研發計劃、科技部973項目、863項目研究。
發表學術論文60多篇,被SCI/EI收錄50餘篇;出版學術專著2部。
獲得遼寧省科技進步二等獎1次、三等獎2次,
遼寧省自然科學學術成果一等獎1次,獲授權國家發明專利5項。

劉輝

大連理工大學講師,主要研究方向為基於人工智能的數字化驅動教學模式研究,主講多門線上課程。
先後獲得“教學之星”大賽全國一等獎、遼寧省微課教學比賽一等獎、遼寧省教育教學信息化大賽一等獎。
教學經驗豐富,善於用淺顯的語言刻畫複雜概念。

吳霞

大連理工大學軟件學院碩士研究生,主要研究方向是機器學習與不完整數據分析,在SCI核心期刊、
國際會議上發表多篇不完整數據分析相關論文,對基於機器學習的缺失值填補有充足的知識儲備及見解。

目錄大綱


 目錄
前言
第1章緒論1
1.1缺失值填補的背景與意義1
1.2缺失值填補方法的研究現狀概述3
1.2.1基於統計學的缺失值填補方法3
1.2.2基於機器學習的缺失值填補方法4
1.3缺失值填補的應用7
1.4本章小結10
參考文獻11

第2章缺失數據的處理方法14
2.1數據缺失機制14
2.1.1完全隨機缺失15
2.1.2隨機缺失15
2.1.3非隨機缺失16
2.2缺失數據的處理17
2.2.1不做處理17
2.2.2不完整樣本刪除19
2.2.3缺失值填補20
2.3缺失值填補概述22
2.3.1基本概念22
2.3.2方法分類24
2.3.3性能度量26
2.4本章小結29
參考文獻29

第3章缺失值填補方法31
3.1基於樣本間相似度的填補方法31
3.1.1均值填補法31
3.1.2熱平台填補法34
3.1.3 K最近鄰填補法36
3.1. 4基於聚類的填補方法39
3.2基於屬性間相關性的填補方法46
3.2.1基於線性回歸的填補方法46
3.2.2基於非線性回歸的填補方法51
3.2.3基於神經網絡的填補方法54
3.3基於參數估計的期望zuida化填補方法60
3.3.1參數估計法60
3.3 .2期望zuida化填補法63
3.4針對缺失數據不確定性的填補方法66
3.4.1多重填補法67
3.4.2基於證據理論的填補方法72
3.5本章小結78
參考文獻79

第4章面向不完整數據的神經網絡填補方法81
4.1基於自組織映射網絡的填補方法81
4.1.1自組織映射網絡理論81
4.1.2自組織映射網絡的缺失值處理85
4.2基於單層感知機的填補方法87
4.2.1單層感知機理論87
4.2.2傳統單層感知機的改進88
4.2.3單層感知機填補模型89
4.3基於多層感知機的填補方法91
4.3.1多層感知機理論91
4.3.2基於多層感知機集群的填補方法93
4.3.3基於多層感知機簡化集群的填補方法95
4.4基於自編碼器及其變體的填補方法96
4.4.1基於自編碼器的填補法97
4.4.2基於徑向基函數自編碼器的填補法99
4.4.3基於廣義回歸自編碼器的填補法102
4.4.4基於對偶傳播自編碼器的填補法104
4.4.5基於極限學習機自編碼器的填補法106
4.5面向不完整數據的屬性關聯型神經元建模與填補方法107
4.5.1基於去跟踪自編碼器的填補法108
4.5.2基於關聯增強型自編碼器的填補法112
4.5.3基於多任務學習的填補方法114
4.6典型神經網絡填補模型實驗117
4.6.1實驗設計118
4.6.2不同網絡模型的填補精度120
4.6.3自編碼器的自跟踪性121
4.6.4去跟踪自編碼器的去跟踪性123
4.7本章小結124
參考文獻124

第5章神經網絡填補方法的優化設計127
5.1面向不完整數據的代價函數127
5.2兩階段式填補方案131
5.2.1訓練階段132
5.2.2填補階段135
5.3融合式填補方案143
5.3.1基於缺失值變量的神經網絡動態填補方案143
5.3.2缺失值變量與模型參數的動態更新144
5.3.3時間複雜度147
5.4典型神經網絡填補方案實驗149
5.4.1實驗設計149
5.4.2不同填補方案的填補精度152
5.4.3 MVPT填補方案的收斂性154
5.5本章小結155
參考文獻156

第6章基於TS建模的非線性回歸填補法157
6.1模糊數學基礎157
6.1.1模糊數學與模糊集合157
6.1.2模糊數學在缺失值填補中的應用158
6.2 TS模型159
6.2.1 TS模型基本結構159
6.2.2 TS模型研究與應用現狀160
6.3基於TS模型的填補方法163
6.3.1基於TS模型的填補方法概述163
6.3 .2前提參數獲取165
6.3.3結論參數獲取168
6.3.4缺失值填補169
6.4基於特徵選擇的TS模型填補法170
6.4.1特徵選擇算法概述170
6.4.2基於特徵選擇的TS模型填補法177
6.5 TS模型填補方法實驗178
6.5.1實驗設計178
6.5.2 TS模型與回歸模型的填補效果對比179
6.5.3特徵選擇對TS模型擬合精度的影響181
6.5.4特徵選擇對TS模型填補精度的影響183
6.6本章小結186
參考文獻186

第7章TS模型填補方法的優化設計188
7.1面向類不均衡數據的TS模型優化188
7.1.1 TS模型中的FCM算法188
7.1.2 FCM算法存在的問題190
7.1.3 DPC算法192
7.1.4類不均衡數據的MDF算法195
7.1.5 MDF算法實驗196
7.2基於交替學習策略的TS模型填補方法204
7.2.1 TS結論參數與填補值的交替學習策略206
7.2.2交替學習策略的迭代收斂性208
7.2.3交替學習策略下線性回歸填補法實驗209
7.2.4交替學習策略下TS模型填補法實驗210
7.3本章小結212
參考文獻212

第8章基於缺失值填補的中國貧困家庭特徵分析213
8.1精準扶貧過程中的數據缺失問題213
8.1.1我國貧困問題研究213
8.1.2中國家庭追踪調查中的數據缺失問題214
8.2 CFPS數據集缺失值填補216
8.2.1基於去跟踪自編碼器的動態缺失值填補216
8.2.2缺失值填補精度217
8.3貧困家庭識別219
8.3.1多維貧困測度219
8.3.2貧困的維度指標及臨界剝奪值220
8.3.3基於層次分析法的多維貧困指標權重計算223
8.3.4 CFPS2016數據集的多維貧困家庭識別227
8.4基於聚類算法的貧困家庭類別劃分229
8.4.1層次聚類算法229
8.4.2貧困家庭聚類230
8.5貧困家庭典型特徵分析232
8.5.1多重聚類特徵選擇算法232
8.5.2貧困家庭典型特徵選擇233
8.6本章小結235
參考文獻236