自然語言處理 : 原理與技術實現

Name: 自然語言處理 : 原理與技術實現
Price: 474 TWD
Availability: Discontinued
Author: 羅剛, 張子憲
ISBN: 7121286203

羅剛, 張子憲

出版商: 電子工業
出版日期: 2016-05-01
售價: $474
語言: 簡體中文
頁數: 443
裝訂: 平裝
ISBN: 7121286203
ISBN-13: 9787121286209
相關分類: Chatbot、Text-mining

已絕版

買這商品的人也買了...

$658

Python 自然語言處理 (Natural Language Processing with Python)
~~$880~~ $695

電玩物理學, 2/e (Physics for Game Developers: Science, math, and code for realistic effects, 2/e)
~~$780~~ $616

精通 Python｜運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)
~~$360~~ $284

完整學會 Git, GitHub, Git Server 的24堂課
$294

大數據智能—因特網時代的機器學習和自然語言處理技術
$297

多語自然語言處理：從原理到實踐 (Multilingual Natural Language Processing Applications: From Theory to Practice)
$374

解密搜尋引擎技術實戰－ Lucene & Java『精華第三版』
~~$680~~ $537

Docker 錦囊妙計 (Docker Cookbook)
$402

解析深度學習 : 語音識別實踐
~~$580~~ $452

Python 機器學習 (Python Machine Learning)
~~$580~~ $458

網站擷取｜使用 Python (Web Scraping with Python: Collecting Data from the Modern Web)
$351

大數據架構詳解：從數據獲取到深度學習
~~$590~~ $502

今天不學機器學習，明天就被機器取代：從 Python 入手+演算法
~~$500~~ $425

Python 自動化的樂趣｜搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)
~~$360~~ $180

深度學習快速入門 — 使用 TensorFlow (Getting started with TensorFlow)
~~$580~~ $458

演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)
$588

NLP 漢語自然語言處理原理與實踐
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
~~$390~~ $195

寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
$279

精通 Python 自然語言處理 (Mastering Natural Language Processing with Python)
$300

自然語言處理技術入門與實戰
~~$690~~ $587

自然語言處理：用人工智慧看懂中文
$1,009

自然語言處理綜論, 2/e (Speech and Language Processing, 2/e)
~~$580~~ $452

無瑕的程式碼－整潔的軟體設計與架構篇 (Clean Architecture: A Craftsman's Guide to Software Structure and Design)
~~$580~~ $458

設計聊天機器人｜建立對話式體驗 (Designing Bots: Creating Conversational Experiences)

商品描述

<內容簡介>

本書詳細介紹自然語言處理各主要領域的原理以Java 實現，包括中文分詞、詞性標註、依存句法分析等。其中詳細介紹了中文分詞和詞性標註的過程及相關算法，如隱馬爾可夫模型等。在自然語言處理的應用領域主要介紹了信息抽取、自動文摘、文本分類等領域的基本理論和實現過程，此外還有問答系統、語音識別等目前應用非常廣泛的領域。在問答系統的介紹中，本書特地介紹了聊天機器人的實現過程，從句子理解、句法分析、同義詞提取等方面揭示聊天機器人的實現原理。

<作者簡介>

羅剛，獵兔搜索創始人，帶領獵兔搜索技術開發團隊先後開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等，實現因特網信息的採集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》，獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。張子憲，聊城大學教師、中國礦業大學（北京）博士生，研究方向：自動句法分析、機器翻譯。

作者簡介

目錄大綱

第1章應用自然語言處理技術1
1.1付出與回報2
1.1.1如何開始2
1.1.2招聘人員2
1.1.3學習3
1.2開發環境3
1.3技術基礎4
1.3.1Java4
1.3.2規則方法5
1.3. 3統計方法5
1.3.4計算框架5
1.3.5文本挖掘7
1.3.6語義庫7
1.4本章小結9
1.5專業術語9

第2章中文分詞原理與實現11
2.1接口12
2.1.1切分方案13
2.1 .2詞特徵13
2.2查找詞典算法13
2.2.1標準Trie樹14
2.2.2三叉Trie樹18
2.2.3詞典格式26
2.3最長匹配中文分詞27
2.3.1正向最大長度匹配法28
2.3.2逆向最大長度匹配法33
2.3.3處理未登錄串39
2.3.4開發分詞43
2.4概率語言模型的分詞方法45
2.4.1一元模型47
2.4.2整合基於規則的方法54
2.4.3表示切分詞圖55
2.4.4形成切分詞圖62
2.4.5數據基礎64
2.4.6改進一元模型75
2.4.7二元詞典79
2.4.8完全二叉樹組85
2.4.9三元詞典89
2.4.10N元模型90
2.4 .11N元分詞91
2.4.12生成語言模型99
2.4.13評估語言模型100
2.4.14概率分詞的流程與結構101
2.4.15可長N元分詞102
2.4.16條件隨機場103
2.5新詞發現103
2.5.1成詞規則109
2.6詞性標註109
2.6.1數據基礎114
2.6.2隱馬爾可夫模型115
2.6.3存儲數據124
2.6 .4統計數據131
2.6.5整合切分與詞性標註133
2.6.6大詞表138
2.6.7詞性序列138
2.6.8基於轉換的錯誤學習方法138
2.6.9條件隨機場141
2.7詞類模型142
2.8未登錄詞識別144
2.8.1未登錄人名144
2.8.2提取候選人名145
2.8.3最長人名切分153
2.8.4一元概率人名切分153
2.8.5二元概率人名切分156
2.8.6未登錄地名159
2.8.7未登錄企業名160
2.9平滑算法160
2.10機器學習的方法164
2.10.1最大熵165
2.10.2條件隨機場170
2.11有限狀態機171
2.12地名切分178
2.12.1識別未登錄地名179
2.12.2整體流程185
2.13企業名切分187
2.13.1識別未登錄詞188
2.13.2整體流程190
2.14結果評測190
2.15本章小結191
2.16專業術語193

第3章英文分析194
3.1分詞194
3.1.1句子切分194
3.1.2識別未登錄串197
3.1.3切分邊界198
3.2詞性標註199
3.3重點詞彙202
3.4句子時態203
3.5本章小結204

第4章依存文法分析205
4.1句法分析樹205
4.2依存文法211
4.2.1中文依存文法211
4.2.2英文依存文法220
4.2.3生成依存樹232
4.2.4遍歷235
4.2.5機器學習的方法237
4.3小結237
4.4專業術語238

第5章文檔排重239
5.1相似度計算239
5.1.1夾角餘弦239
5.1.2最長公共子串242
5.1.3同義詞替換246
5.1.4地名相似度248
5.1.5企業名相似度251
5.2文檔排重251
5.2.1關鍵詞排重251
5.2.2SimHash254
5.2.3分佈式文檔排重268
5.2. 4使用文本排重269
5.3在搜索引擎中使用文本排重269
5.4本章小結270
5.5專業術語270

第6章信息提取271
6.1指代消解271
6.2中文關鍵詞提取273
6.2.1關鍵詞提取的基本方法273
6.2.2HITS算法應用於關鍵詞提取275
6.2.3從網頁中提取關鍵詞277
6.3信息提取278
6.3.1提取聯繫方式280
6.3.2從因特網提取信息281
6.3.3提取地名282
6.4拼寫糾錯283
6.4.1模糊匹配問題285
6.4 .2正確詞表296
6.4.3英文拼寫檢查298
6.4.4中文拼寫檢查300
6.5輸入提示302
6.6本章小結303
6.7專業術語303

第7章自動摘要304
7.1自動摘要技術305
7.1.1英文文本摘要307
7.1.2中文文本摘要309
7.1.3基於篇章結構的自動摘要314
7.1.4句子壓縮314
7.2指代消解314
7.3Lucene中的動態摘要314
7.4本章小結317
7.5專業術語318

第8章文本分類319
8.1地名分類321
8.2錯誤類型分類321
8.3特徵提取322
8.4關鍵詞加權法326
8.5樸素貝葉斯330
8.6貝葉斯文本分類336
8.7支持向量機336
8.7.1多級分類345
8.7.2規則方法347
8.7 .3網頁分類350
8.8最大熵351
8.9信息審查352
8.10文本聚類353
8.10.1K均值聚類方法353
8.10.2K均值實現355
8.10.3深入理解DBScan算法359
8.10.4使用DBScan算法聚類實例361
8.11本章小結363
8.12專業術語363

第9章文本傾向性分析364
9.1確定詞語的褒貶傾向367
9.2實現情感識別368
9.3本章小結372
9.4專業術語373

第10章問答系統374
10 .1問答系統的結構375
10.1.1提取問答對376
10.1.2等價問題376
10.2問句分析377
10.2.1問題類型377
10.2.2句型381
10.2.3業務類型381
10.2.4依存樹381
10.2.5指代消解383
10.2.6二元關係383
10.2.7邏輯表示386
10.2.8問句模板386
10.2.9結構化問句模板389
10.2.10檢索方式390
10.2.11問題重寫395
10.2 .12提取事實395
10.2.13驗證答案398
10.2.14無答案的處理398
10.3知識庫398
10.4聊天機器人399
10.4.1交互式問答401
10.4.2垂直領域問答系統402
10.4.3語料庫405
10.4.4客戶端405
10.5自然語言生成405
10.6依存句法406
10.7提取同義詞410
10.7.1流程410
10.8本章小結411
10.9術語表412

第11章語音識別413
11.1總體結構414
11.1.1識別中文416
11.1.2自動問答417
11.2語音庫418
11.3語音合成419
11.3.1歸一化420
11.4語音420
11.4.1標註424
11.4.2相似度424
11.5Sphinx424
11.5.1中文訓練集426
11.6Julius429
11.7本章小結429
11.8術語表429
參考資源430
後記431