實體識別技術 实体识别技术

申德榮, 寇月, 聶鐵錚, 於戈, 等

  • 出版商: 機械工業
  • 出版日期: 2017-10-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • 頁數: 199
  • 裝訂: 精裝
  • ISBN: 711158161X
  • ISBN-13: 9787111581611
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

本書核心介紹實體識別技術,擬結合作者這幾年的研究工作,從多角度闡述實體識別技術,主要包括基於關系的實體記錄識別技術、分佈的實體識別技術、基於時間的實體識別技術、隱私保護下的實體識別技術和研究展望。本書適合數據集成等方向的研究生閱讀,也能為相關領域研究人員和開發人員提供重要參考。

作者簡介

申德榮,東北大學、計算機學院教授,博導,目前研究方向主要為分佈式數據管理與數據集成。
寇月,東北大學、計算機學院副教授,目前研究方向主要為實體識別。
聶鐵錚,東北大學、計算機學院副教授,目前研究方向主要為數據質量。
於戈,東北大學、計算機學院執行院長,教授,博導,目前研究方向主要為大數據管理、圖數據管理、數據存儲管理等。

目錄大綱

叢書前言
前言

第1章概述1 
1.1實體識別問題的提出1 
1.2實體識別研究的發展歷史2 
1.3實體識別問題的描述4 
1.4實體識別的處理流程6 
1.5實體識別的挑戰6 
1.5.1相似度衡量問題7 
1.5.2計算效率問題7 
1.5.3機器學習方法的應用問題8 
1.5.4關聯對象的識別問題8 
1.5.5一些新的挑戰9 
1.5.6實體識別評估10 
1.6實體識別的應用10 
1.6.1醫療衛生10 
1.6.2人口普查11 
1.6.3客戶關係管理12 
1.6.4網購比價13 
1.6.5犯罪及欺詐偵查13 
1.6.6關聯的開放數據14 
1.6.7引文數據庫15 
1.7本章小結17 
參考文獻17 

第2章相似度計算算法22 
2.1基於字段的相似度算法22 
2.1.1 Jaccard相似度算法22 
2.1.2基於TF-IDF的相似度算法23 
2.1.3基於q-grams的相似度算法24
2.2基於編輯距離的相似度算法25 
2.2.1 Levenshtein距離算法25 
2.2.2 Jaro和Jaro-Winkler距離算法26 
2.3混合的相似度算法27 
2.3.1擴展的Jaccard相似度算法27 
2.3.2 Monge-Elkan相似度算法29 
2.3.3 Soft TF-IDF相似度算法29 
2.4數值型數據相似度算法31 
2.4.1數字型相似度算法31 
2.4.2日期型相似度算法32 
2.4.3價格型相似度算法32 
2.5本章小結33 
參考文獻33 

第3章實體識別的分塊技術35 
3.1引言35 
3.1.1數據分塊技術的應用35 
3.1.2實體識別數據分塊問題定義與算法分類38 
3.2分塊鍵39 
3.2 .1分塊鍵的定義39 
3.2.2分塊鍵的編碼44 
3.3基於等值匹配的分塊算法45 
3.3.1標準分塊方法46 
3.3.2基於學習的分塊鍵定義48 
3.4基於相似性的分塊算法50 
3.4.1基於排序的分塊方法51 
3.4.2基於字符串分割的分塊方法54
3.4.3基於MinHash的分塊方法58 
3.4.4基於Canopy聚類的分塊方法61 
3.4.5基於前綴過濾的分塊方法64 
3.5本章小結69 
參考文獻69 

第4章基於機器學習的實體識別方法72 
4.1基於分類器的實體識別方法72 
4.1.1基於決策樹的實體識別方法73 
4.1.2基於貝葉斯分類器的實體識別方法76 
4.1.3基於SVM的實體識別方法79 
4.1.4基於主動學習的實體識別方法84 
4.1.5其他方法87 
4.2基於概率圖模型的實體識別方法88 
4.2.1基於馬爾可夫邏輯網絡的實體識別方法89 
4.2.2基於條件隨機場的實體識別方法93 
4.3本章小結97 
參考文獻97 

第5章基於關係的實體識別方法100 
5.1引言100 
5.2聯合式實體識別方法101 
5.2.1基於關係聚類的聯合式實體識別方法102 
5.2.2複雜信息空間中的聯合式實體識別方法108 
5.3基於實體關係的消歧方法118 
5.3.1基於社交關係的名字消歧方法119 
5.3.2基於實體關係的實體消歧方法122
5.3.3基於異構實體關係的實體消歧方法133 
5.4本章小結140 
參考文獻141 

第6章新型的實體識別技術143 
6.1引言143 
6.2基於時間模型的實體識別技術144 
6.2.1一個實例145 
6.2. 2時間模型146 
6.2.3基於時間模型的實體識別算法161 
6.3基於眾包的實體識別技術170 
6.3.1一個實例171 
6.3.2基於眾包的實體識別框架172 
6.3.3基於眾包的實體識別的核心問題174 
6.3.4基於眾包的實體識別方法的特點177 
6.4隱私保護下的實體識別技術178 
6.4.1實體匹配中隱私保護的分類179 
6.4.2實體識別隱私保護算法的評估182 
6.5本章小結184 
參考文獻184 

第7章實體識別評估187 
7.1基於記錄對的精確性評價——準確率、召回率和F測度187 
7.2分塊技術評價189 
7.3常用數據集190 
7.3.1真實數據集190 
7.3 .2數據生成工具191 
7.4本章小結192 
參考文獻192 

第8章總結與展望193
8.1實體識別研究總結193 
8.2新型實體識別研究展望195 
8.2.1基於時間模型的實體識別195 
8.2.2基於眾包的實體識別196 
8.2.3隱私保護下的實體識別197 
8.3研究挑戰198