自然語言處理 : 原理與技術實現

羅剛, 張子憲

  • 出版商: 電子工業
  • 出版日期: 2016-05-01
  • 定價: $474
  • 售價: 8.5$403
  • 語言: 簡體中文
  • 頁數: 443
  • 裝訂: 平裝
  • ISBN: 7121286203
  • ISBN-13: 9787121286209
  • 相關分類: ChatbotText-mining
  • 已絕版

買這商品的人也買了...

商品描述

<內容簡介>

本書詳細介紹自然語言處理各主要領域的原理以Java 實現,包括中文分詞、詞性標註、依存句法分析等。其中詳細介紹了中文分詞和詞性標註的過程及相關算法,如隱馬爾可夫模型等。在自然語言處理的應用領域主要介紹了信息抽取、自動文摘、文本分類等領域的基本理論和實現過程,此外還有問答系統、語音識別等目前應用非常廣泛的領域。在問答系統的介紹中,本書特地介紹了聊天機器人的實現過程,從句子理解、句法分析、同義詞提取等方面揭示聊天機器人的實現原理。

<作者簡介>

羅剛,獵兔搜索創始人,帶領獵兔搜索技術開發團隊先後開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等,實現因特網信息的採集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。張子憲,聊城大學教師、中國礦業大學(北京)博士生,研究方向:自動句法分析、機器翻譯。

作者簡介

羅剛,獵兔搜索創始人,帶領獵兔搜索技術開發團隊先後開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的採集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。張子憲,聊城大學教師、中國礦業大學(北京)博士生,研究方向:自動句法分析、機器翻譯。

目錄大綱

第1章應用自然語言處理技術1 
1.1付出與回報2 
1.1.1如何開始2 
1.1.2招聘人員2 
1.1.3學習3 
1.2開發環境3 
1.3技術基礎4 
1.3.1Java4 
1.3.2規則方法5 
1.3. 3統計方法5 
1.3.4計算框架5 
1.3.5文本挖掘7 
1.3.6語義庫7 
1.4本章小結9 
1.5專業術語9 

第2章中文分詞原理與實現11 
2.1接口12 
2.1.1切分方案13 
2.1 .2詞特徵13 
2.2查找詞典算法13 
2.2.1標準Trie樹14 
2.2.2三叉Trie樹18 
2.2.3詞典格式26 
2.3最長匹配中文分詞27 
2.3.1正向最大長度匹配法28 
2.3.2逆向最大長度匹配法33 
2.3.3處理未登錄串39 
2.3.4開發分詞43 
2.4概率語言模型的分詞方法45 
2.4.1一元模型47 
2.4.2整合基於規則的方法54 
2.4.3表示切分詞圖55 
2.4.4形成切分詞圖62 
2.4.5數據基礎64 
2.4.6改進一元模型75 
2.4.7二元詞典79 
2.4.8完全二叉樹組85 
2.4.9三元詞典89 
2.4.10N元模型90 
2.4 .11N元分詞91 
2.4.12生成語言模型99 
2.4.13評估語言模型100 
2.4.14概率分詞的流程與結構101 
2.4.15可 長N元分詞102 
2.4.16條件隨機場103 
2.5新詞發現103 
2.5.1成詞規則109 
2.6詞性標註109 
2.6.1數據基礎114 
2.6.2隱馬爾可夫模型115 
2.6.3存儲數據124 
2.6 .4統計數據131 
2.6.5整合切分與詞性標註133 
2.6.6大詞表138 
2.6.7詞性序列138 
2.6.8基於轉換的錯誤學習方法138 
2.6.9條件隨機場141 
2.7詞類模型142 
2.8未登錄詞識別144 
2.8.1未登錄人名144 
2.8.2提取候選人名145 
2.8.3最長人名切分153 
2.8.4一元概率人名切分153 
2.8.5二元概率人名切分156 
2.8.6未登錄地名159 
2.8.7未登錄企業名160 
2.9平滑算法160 
2.10機器學習的方法164 
2.10.1最大熵165 
2.10.2條件隨機場170 
2.11有限狀態機171 
2.12地名切分178 
2.12.1識別未登錄地名179 
2.12.2整體流程185 
2.13企業名切分187 
2.13.1識別未登錄詞188 
2.13.2整體流程190 
2.14結果評測190 
2.15本章小結191 
2.16專業術語193 

第3章英文分析194 
3.1分詞194 
3.1.1句子切分194 
3.1.2識別未登錄串197 
3.1.3切分邊界198 
3.2詞性標註199 
3.3重點詞彙202 
3.4句子時態203 
3.5本章小結204 

第4章依存文法分析205 
4.1句法分析樹205 
4.2依存文法211 
4.2.1中文依存文法211 
4.2.2英文依存文法220 
4.2.3生成依存樹232 
4.2.4遍歷235 
4.2.5機器學習的方法237 
4.3小結237 
4.4專業術語238 

第5章文檔排重239 
5.1相似度計算239 
5.1.1夾角餘弦239 
5.1.2最長公共子串242 
5.1.3同義詞替換246 
5.1.4地名相似度248 
5.1.5企業名相似度251 
5.2文檔排重251 
5.2.1關鍵詞排重251 
5.2.2SimHash254 
5.2.3分佈式文檔排重268 
5.2. 4使用文本排重269 
5.3在搜索引擎中使用文本排重269 
5.4本章小結270 
5.5專業術語270 

第6章信息提取271 
6.1指代消解271 
6.2中文關鍵詞提取273 
6.2.1關鍵詞提取的基本方法273 
6.2.2HITS算法應用於關鍵詞提取275 
6.2.3從網頁中提取關鍵詞277 
6.3信息提取278 
6.3.1提取聯繫方式280 
6.3.2從互聯網提取信息281 
6.3.3提取地名282 
6.4拼寫糾錯283 
6.4.1模糊匹配問題285 
6.4 .2正確詞表296 
6.4.3英文拼寫檢查298 
6.4.4中文拼寫檢查300 
6.5輸入提示302 
6.6本章小結303 
6.7專業術語303 

第7章自動摘要304 
7.1自動摘要技術305 
7.1.1英文文本摘要307 
7.1.2中文文本摘要309 
7.1.3基於篇章結構的自動摘要314 
7.1.4句子壓縮314 
7.2指代消解314 
7.3Lucene中的動態摘要314 
7.4本章小結317 
7.5專業術語318 

第8章文本分類319 
8.1地名分類321 
8.2錯誤類型分類321 
8.3特徵提取322 
8.4關鍵詞加權法326 
8.5樸素貝葉斯330 
8.6貝葉斯文本分類336 
8.7支持向量機336 
8.7.1多級分類345 
8.7.2規則方法347 
8.7 .3網頁分類350 
8.8最大熵351 
8.9信息審查352 
8.10文本聚類353 
8.10.1K均值聚類方法353 
8.10.2K均值實現355 
8.10.3深入理解DBScan算法359 
8.10.4使用DBScan算法聚類實例361 
8.11本章小結363 
8.12專業術語363 

第9章文本傾向性分析364 
9.1確定詞語的褒貶傾向367 
9.2實現情感識別368 
9.3本章小結372 
9.4專業術語373 

第10章問答系統374 
10 .1問答系統的結構375 
10.1.1提取問答對376 
10.1.2等價問題376 
10.2問句分析377 
10.2.1問題類型377 
10.2.2句型381 
10.2.3業務類型381 
10.2.4依存樹381 
10.2.5指代消解383 
10.2.6二元關係383 
10.2.7邏輯表示386 
10.2.8問句模板386 
10.2.9結構化問句模板389 
10.2.10檢索方式390 
10.2.11問題重寫395 
10.2 .12提取事實395 
10.2.13驗證答案398 
10.2.14無答案的處理398 
10.3知識庫398 
10.4聊天機器人399 
10.4.1交互式問答401 
10.4.2垂直領域問答系統402 
10.4.3語料庫405 
10.4.4客戶端405 
10.5自然語言生成405 
10.6依存句法406 
10.7提取同義詞410 
10.7.1流程410 
10.8本章小結411 
10.9術語表412 

第11章語音識別413 
11.1總體結構414 
11.1.1識別中文416 
11.1.2自動問答417 
11.2語音庫418 
11.3語音合成419 
11.3.1歸一化420 
11.4語音420 
11.4.1標註424 
11.4.2相似度424 
11.5Sphinx424 
11.5.1中文訓練集426 
11.6Julius429 
11.7本章小結429 
11.8術語表429 
參考資源430 
後記431