NLP漢語自然語言處理原理與實踐 NLP汉语自然语言处理原理与实践

鄭捷

  • 出版商: 電子工業出版社
  • 出版日期: 2017-01-01
  • 定價: CNY $98.00
  • 售價: $588
  • 貴賓價: 9.5$559
  • 語言: 簡體中文
  • 頁數: 544
  • 裝訂: 平裝
  • ISBN: 7121307650
  • ISBN-13: 9787121307652
  • 相關標籤: 機器學習自然語言

立即出貨

買這商品的人也買了...

產品描述

鄭捷著的《NLP漢語自然語言處理原理與實踐》是一本研究漢語自然語言處理方面的基礎性、綜合性書籍,涉及NLP的語言理論、演算法和工程實踐的方方面面,內容繁雜。
本書包括NLP的語言理論部分、演算法部分、案例部分,涉及漢語的發展歷史、傳統的句法理論、認知語言學理論。需要指出的是,本書是一本系統介紹認知語言學和演算法設計相結合的中文NLP書籍,並從認知語言學的視角重新認識和分析了NLP的句法和語義相結合的數據結構。這也是本書的創新之處。
本書適用於所有想學習NLP的技術人員,包括各大人工智能實驗室、軟件學院等專業機構。

 

作者簡介

鄭捷:網站的負責人,研究方向是機器學習與自然語言處理。當前負責的核心產品是高精度自然語言認知系統的設計與研發,研發目標是高精度(識別率為85%~95%)的統一架構的NLP認知系統,已經出版專著《機器學習算法原理與編程實踐》,希望能與在NLP這方面有興趣的讀者一起學習交流。

目錄大綱

目錄

第1章中文語言的機器處理1 
1.1歷史回顧2 
1.1.1從科幻到現實2 
1.1.2早期的探索3 
1.1.3規則派還是統計派3 
1.1.4從機器學習到認知
計算5 
1.2現代自然語言系統簡介6 
1.2.1 NLP流程與開源框架6 
1.2.2哈工大NLP平台及其
演示環境9 
1.2.3 Stanford NLP團隊及其
演示環境11 
1.2.4 NLTK開發環境13 
1.3整合中文分詞模塊16 
1.3.1安裝Ltp Python組件17 
1.3.2使用Ltp 3.3進行中文
分詞18 
1.3.3使用結巴分詞模塊20 
1.4整合詞性標註模塊22 
1.4.1 Ltp 3.3詞性標註23 
1.4.2安裝StanfordNLP並
編寫Python接口類24 
1.4.3執行Stanford詞性
標註28 
1.5整合命名實體識別模塊29 
1.5.1 Ltp 3.3命名實體識別29 
1.5.2 Stanford命名實體
識別30 
1.6整合句法解析模塊32 
1.6.1 Ltp 3.3句法依存樹33 
1.6.2 Stanford Parser類35 
1.6.3 Stanford短語結構樹36 
1.6.4 Stanford依存句法樹37 
1.7整合語義角色標註模塊38 
1.8結語40
 
第2章漢語語言學研究回顧42 
2.1文字符號的起源42 
2.1.1從記事談起43 
2.1.2古文字的形成47 
2.2六書及其他48 
2.2.1象形48 
2.2.2指事50 
2.2.3會意51 
2.2.4形聲53 

2.2.5轉注54 
2.2.6假借55 
2.3字形的流變56 
2.3.1筆與墨的形成與變革56 
2.3.2隸變的方式58 
2.3.3漢字的符號化與結構61 
2.4漢語的發展67 
2.4.1完整語義的基本
形式——句子68 
2.4.2語言的初始形態與
文言文71 
2.4.3白話文與復音詞73 
2.4.4白話文與句法研究78
2.5三個平面中的語義研究80 
2.5.1詞彙與本體論81 
2.5.2格語法及其框架84 
2.6結語86 

第3章詞彙與分詞技術88 
3.1中文分詞89 
3.1.1什麼是詞與分詞規範90 
3.1.2兩種分詞標準93 
3.1.3歧義、機械分詞、語言
模型94 
3.1.4詞彙的構成與未登錄
詞97 
3.2系統總體流程與詞典結構98 
3.2.1概述98 
3.2.2中文分詞流程99 
3.2.3分詞詞典結構103 
3.2.4命名實體的詞典
結構105 
3.2.5詞典的存儲結構108 
3.3算法部分源碼解析111 
3.3.1系統配置112 
3.3.2 Main方法與例句113 
3.3.3句子切分113 
3.3.4分詞流程117 
3.3.5一元詞網118 
3.3.6二元詞圖125 
3.3.7 NShort算法原理130 
3.3.8後處理規則集136 
3.3.9命名實體識別137 
3.3.10細分階段與最短
路徑140
3.4結語142 

第4章NLP中的概率圖模型143 
4.1概率論回顧143 
4.1.1多元概率論的幾個
基本概念144 
4.1.2貝葉斯與朴素貝葉斯
算法146 
4.1.3文本分類148 
4.1 .4文本分類的實現151 
4.2信息熵154 
4.2.1信息量與信息熵154 
4.2.2互信息、聯合熵、
條件熵156 
4.2.3交叉熵和KL散度158 
4.2.4信息熵的NLP的
意義159 
4.3 NLP與概率圖模型160 
4.3.1概率圖模型的幾個
基本問題161 
4.3.2產生式模型和判別式
模型162 
4.3.3統計語言模型與NLP 
算法設計164 
4.3.4極大似然估計167 
4.4隱馬爾科夫模型簡介169 
4.4.1馬爾科夫鏈169 
4.4.2隱馬爾科夫模型170 
4.4.3 HMMs的一個實例171 
4.4.4 Viterbi算法的實現176 
4.5最大熵模型179 
4.5. 1從詞性標註談起179
4.5.2特徵和約束181 
4.5.3最大熵原理183 
4.5.4公式推導185 
4.5.5對偶問題的極大似然
估計186 
4.5.6 GIS實現188 
4.6條件隨機場模型193 
4.6.1隨機場193 
4.6.2無向圖的團(Clique)
與因子分解194 
4.6.3線性鏈條件隨機場195 
4.6.4 CRF的概率計算198 
4.6.5 CRF的參數學習199 
4.6.6 CRF預測標籤200 
4.7結語201 

第5章詞性、語塊與命名實體
識別202 
5.1漢語詞性標註203 
5.1.1漢語的詞性203 
5.1.2賓州樹庫的詞性標註
規範205 
5.1.3 stanfordNLP標註
詞性210 
5.1.4訓練模型文件213 
5.2語義組塊標註219 
5.2.1語義組塊的種類220 
5.2.2細說NP 221 
5.2.3細說VP 223 
5.2.4其他語義塊227 
5.2.5語義塊的抽取229
5.2.6 CRF的使用232 
5.3命名實體識別240 
5.3.1命名實體241 
5.3.2分詞架構與專名
詞典243 
5.3.3算法的策略——詞典
與統計相結合245 
5.3.4算法的策略——層疊
式架構252 
5.4結語259 

第6章句法理論與自動分析260 
6.1轉換生成語法261 
6.1.1喬姆斯基的語言觀261 
6.1.2短語結構文法263 
6.1.3漢語句類269 
6.1.4謂詞論元與空範疇274 
6.1.5輕動詞分析理論279 
6.1.6 NLTK操作句法樹280 
6.2依存句法理論283 
6.2.1配價理論283 
6.2.2配價詞典285 
6.2.3依存理論概述287 
6.2. 4 Ltp依存分析介紹290 
6.2.5 Stanford依存轉換、
解析293 
6.3 PCFG短語結構句法分析298 
6.3.1 PCFG短語結構298 
6.3.2內向算法和外向
算法301 
6.3.3 Viterbi算法303
6.3.4參數估計304 
6.3.5 Stanford的PCFG算法
訓練305 
6.4結語310 

第7章建設語言資源庫311 
7.1語料庫概述311 
7.1.1語料庫的簡史312 
7.1.2語言資源庫的分類314 
7.1.3語料庫的設計實例:
國家語委語料庫315 
7.1.4語料庫的層次加工321 
7.2語法語料庫323 
7.2.1中文分詞語料庫323 
7.2.2中文分詞的測評326 
7.2.3賓州大學CTB簡介327 
7.3語義知識庫333 
7.3.1知識庫與HowNet 
簡介333 
7.3.2發掘義原334 
7.3.3語義角色336 
7.3.4分類原則與事件
分類344 
7.3.5實體分類347 
7.3.6屬性與分類352 
7.3.7相似度計算與實例353 
7.4語義網與百科知識庫360 
7.4.1語義網理論介紹360 
7.4.2維基百科知識庫364 
7.4.3 DBpedia抽取原理365 
7.5結語368
第8章語義與認知370 
8.1回顧現代語義學371 
8.1.1語義三角論371 
8.1.2語義場論373 
8.1.3基於邏輯的語義學376 
8.2認知語言學概述377 
8.2.1像似性原理379 
8.2.2順序像似性380 
8.2.3距離像似性380 
8.2.4重疊像似性381 
8.3意像圖式的構成383 
8.3.1主觀性與焦點383 
8.3.2範疇化:概念的
認知385 
8.3.3主體與背景390 
8.3.4意像圖式392 
8.3.5社交中的圖式396 
8.3.6完形:壓縮與省略398 
8.4隱喻與轉喻401 
8.4.1隱喻的結構402 
8.4. 2隱喻的認知本質403 
8.4.3隱喻計算的系統
架構405 
8.4.4隱喻計算的實現408 
8.5構式語法412 
8.5.1構式的概念413 
8.5.2句法與構式415 
8.5.3構式知識庫417 
8.6結語420 
第9章NLP中的深度學習422
9.1神經網絡回顧422 
9.1.1神經網絡框架423 
9.1.2梯度下降法推導425 
9.1.3梯度下降法的實現427 
9.1.4 BP神經網絡介紹和
推導430 
9.2 Word2Vec簡介433 
9.2.1詞向量及其表達434 
9.2.2 Word2Vec的算法
原理436 
9.2.3訓練詞向量439 
9.2.4大規模上下位關係的
自動識別443 
9.3 NLP與RNN 448 
9.3.1 Simple-RNN 449