動手學自然語言處理
屠可偉 王新宇 曲彥儒 俞勇
- 出版商: 人民郵電
- 出版日期: 2024-10-01
- 定價: $539
- 售價: 7.9 折 $425 (限時優惠至 2026-01-17)
- 語言: 簡體中文
- 頁數: 238
- 裝訂: 平裝
- ISBN: 711563646X
- ISBN-13: 9787115636461
-
相關分類:
Natural Language Processing
立即出貨
買這商品的人也買了...
-
Ajax Hacks 駭客八十招$580$458 -
$301JavaScript 設計模式 -
$352智能 Web 算法, 2/e (Algorithms of the Intelligent Web, 2/e) -
單元測試的藝術, 2/e (The Art of Unit Testing: with examples in C#, 2/e)$650$507 -
$607電腦時代的統計推斷:算法、演化和數據科學 (Computer Age Statistical Inference : Algorithms, Evidence, and Data Science) -
$454機器學習算法的數學解析與 Python 實現 -
Android TDD 測試驅動開發:從 UnitTest、TDD 到 DevOps 實踐 (iT邦幫忙鐵人賽系列書)$550$429 -
練好深度學習的基本功|用 Python 進行基礎數學理論的實作$560$442 -
$602設計模式就該這樣學:基於經典框架源碼和真實業務場景 -
$348信息論基礎 (Elements of Information Theory, 2/e) -
Kent Beck 的測試驅動開發:案例導向的逐步解決之道 (Test-Driven Development: By Example)(TDD)$560$437 -
設計模式之美$599$569 -
你就是不寫測試才會沒時間:Kuma 的單元測試實戰 -- Java篇(iThome鐵人賽系列書)$650$507 -
Elasticsearch 數據搜索與分析實戰$599$569 -
現代 Linux 學習手冊 (Learning Modern Linux: A Handbook for the Cloud Native Practitioner)$580$458 -
全棧測試|交付高品質軟體的實務指南 (Full Stack Testing: A Practical Guide for Delivering High Quality Software)$680$537 -
白話深度學習的數學$419$398 -
統計思維$474$450 -
機器學習的公式推導和程式實作$580$458 -
$509深度學習詳解 -
$505一本書讀懂大模型 -
$419特徵工程訓練營 -
$607ROS 2 智能機器人開發實踐 -
spaCy 自然語言處理從入門到進階$534$507 -
$505概率與統計:面向經濟學
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書介紹自然語言處理的原理和方法及其代碼實現,是一本著眼於自然語言處理教學實踐的圖書。
本書分為3個部分。第一部分介紹基礎技術,包括文本規範化、文本表示、文本分類、文本聚類。第二部分介紹自然語言的序列建模,包括語言模型、序列到序列模型、預訓練語言模型、序列標註。第三部分介紹自然語言的結構建模,包括成分句法分析、依存句法分析、語義分析、篇章分析。本書將自然語言處理的理論與實踐相結合,提供所介紹方法的代碼示例,能夠幫助讀者掌握理論知識並進行動手實踐。
本書適合作為高校自然語言處理課程的教材,也可作為相關行業的研究人員和開發人員的參考資料。
作者簡介
屠可偉,上海科技大學信息科學與技術學院長聘副教授、研究員、博士生導師。研究方向包括自然語言處理、機器學習等,主要研究將符號、統計和神經方法相結合用於語言結構的表示、學習與利用。發表論文100餘篇,主要發表在ACL、EMNLP、AAAI 等人工智能領域頂級會議。擔任多個頂級會議程序委員會委員和領域主席。曾獲ACL 2023傑出論文獎,以及SemEval 2022和SemEval 2023最佳系統論文獎。
王新宇,上海科技大學博士,長期從事自然語言處理研究工作,在ACL、EMNLP、NAACL等頂級會議上發表論文10餘篇,擔任ACL、NAACL會議的領域主席以及ACL滾動審查(ACL Rolling Review)執行編輯。曾獲得中國中文信息學會優秀博士學位論文提名、SemEval 2022最佳系統論文獎等榮譽。
曲彥儒,伊利諾伊大學厄巴納-香檳分校博士生,長期從事自然語言處理研究工作,在ACL、NAACL、AAAI、ICLR等會議上發表了多篇論文。
俞勇,上海交通大學ACM班創辦人,國家級教學名師,上海交通大學特聘教授。2018年創辦伯禹人工智能學院,在上海交通大學ACM班人工智能專業課程體系的基礎上,對人工智能課程體系進行創新,致力於培養卓越的人工智能算法工程師和研究員。
目錄大綱
第 1章 初探自然語言處理 1
1.1 自然語言處理是什麼 1
1.2 自然語言處理的應用 2
1.3 自然語言處理的難點 3
1.4 自然語言處理的方法論 4
1.5 小結 5
第 一部分 基礎
第 2章 文本規範化 8
2.1 分詞 8
2.1.1 基於空格與標點符號的分詞 8
2.1.2 基於正則表達式的分詞 9
2.1.3 詞間不含空格的語言的分詞 12
2.1.4 基於子詞的分詞 13
2.2 詞規範化 17
2.2.1 大小寫折疊 17
2.2.2 詞目還原 18
2.2.3 詞乾還原 19
2.3 分句 19
2.4 小結 20
第3章 文本表示 22
3.1 詞的表示 22
3.2 稀疏向量表示 24
3.3 稠密向量表示 25
3.3.1 word2vec 25
3.3.2 上下文相關詞嵌入 30
3.4 文檔表示 30
3.4.1 詞-文檔共現矩陣 31
3.4.2 TF-IDF加權 31
3.4.3 文檔的稠密向量表示 33
3.5 小結 33
第4章 文本分類 35
4.1 基於規則的文本分類 35
4.2 基於機器學習的文本分類 36
4.2.1 樸素貝葉斯 36
4.2.2 邏輯斯諦回歸 42
4.3 分類結果評價 45
4.4 小結 47
第5章 文本聚類 49
5.1 k均值聚類算法 49
5.2 基於高斯混合模型的最大期望值算法 53
5.2.1 高斯混合模型 53
5.2.2 最大期望值算法 53
5.3 無監督樸素貝葉斯模型 57
5.4 主題模型 60
5.5 小結 61
第二部分 序列
第6章 語言模型 64
6.1 概述 64
6.2 n元語法模型 66
6.3 循環神經網絡 67
6.3.1 循環神經網絡 67
6.3.2 長短期記憶 73
6.3.3 多層雙向循環神經網絡 76
6.4 註意力機制 80
多頭註意力 83
6.5 Transformer模型 85
6.6 小結 91
第7章 序列到序列模型 93
7.1 基於神經網絡的序列到序列模型 93
7.1.1 循環神經網絡 94
7.1.2 註意力機制 96
7.1.3 Transformer 98
7.2 學習 101
7.3 解碼 106
7.3.1 貪心解碼 106
7.3.2 束搜索解碼 107
7.3.3 其他解碼問題與解決技巧 110
7.4 指針網絡 111
7.5 序列到序列任務的延伸 112
7.6 小結 113
第8章 預訓練語言模型 114
8.1 ELMo:基於語言模型的上下文相關詞嵌入 114
8.2 BERT:基於Transformer的雙向編碼器表示 115
8.2.1 掩碼語言模型 115
8.2.2 BERT模型 116
8.2.3 預訓練 116
8.2.4 微調與提示 117
8.2.5 BERT代碼演示 117
8.2.6 BERT模型擴展 121
8.3 GPT:基於Transformer的生成式預訓練語言模型 122
8.3.1 GPT模型的歷史 122
8.3.2 GPT-2訓練演示 123
8.3.3 GPT的使用 125
8.4 基於編碼器-解碼器的預訓練語言模型 128
8.5 基於HuggingFace的預訓練語言模型使用 129
8.5.1 文本分類 129
8.5.2 文本生成 130
8.5.3 問答 130
8.5.4 文本摘要 131
8.6 小結 131
第9章 序列標註 133
9.1 序列標註任務 133
9.1.1 詞性標註 133
9.1.2 中文分詞 134
9.1.3 命名實體識別 134
9.1.4 語義角色標註 135
9.2 隱馬爾可夫模型 135
9.2.1 模型 135
9.2.2 解碼 136
9.2.3 輸入序列的邊際概率 137
9.2.4 單個標簽的邊際概率 138
9.2.5 監督學習 139
9.2.6 無監督學習 139
9.2.7 部分代碼實現 141
9.3 條件隨機場 146
9.3.1 模型 146
9.3.2 解碼 147
9.3.3 監督學習 148
9.3.4 無監督學習 149
9.3.5 部分代碼實現 149
9.4 神經序列標註模型 154
9.4.1 神經softmax 154
9.4.2 神經條件隨機場 154
9.4.3 代碼實現 155
9.5 小結 156
第三部分 結構
第 10章 成分句法分析 160
10.1 成分結構 160
10.2 成分句法分析概述 161
10.2.1 歧義性與打分 161
10.2.2 解碼 162
10.2.3 學習 162
10.2.4 評價指標 163
10.3 基於跨度的成分句法分析 163
10.3.1 打分 164
10.3.2 解碼 165
10.3.3 學習 170
10.4 基於轉移的成分句法分析 173
10.4.1 狀態與轉移 173
10.4.2 轉移的打分 174
10.4.3 解碼 175
10.4.4 學習 176
10.5 基於上下文無關文法的成分句法分析 177
10.5.1 上下文無關文法 177
10.5.2 解碼和學習 178
10.6 小結 179
第 11章 依存句法分析 181
11.1 依存結構 181
11.1.1 投射性 182
11.1.2 與成分結構的關系 182
11.2 依存句法分析概述 184
11.2.1 打分、解碼和學習 184
11.2.2 評價指標 184
11.3 基於圖的依存句法分析 185
11.3.1 打分 185
11.3.2 解碼 186
11.3.3 Eisner算法 186
11.3.4 MST算法 191
11.3.5 高階方法 194
11.3.6 監督學習 194
11.4 基於轉移的依存句法分析 195
11.4.1 狀態與轉移 196
11.4.2 打分、解碼與學習 196
11.5 小結 198
第 12章 語義分析 200
12.1 顯式和隱式的語義表示 200
12.2 詞義表示 201
12.2.1 WordNet 201
12.2.2 詞義消歧 203
12.3 語義表示 204
12.3.1 專用和通用的語義表示 204
12.3.2 一階邏輯 205
12.3.3 語義圖 205
12.4 語義分析 206
12.4.1 基於句法的語義分析 206
12.4.2 基於神經網絡的語義分析 207
12.4.3 弱監督學習 209
12.5 語義角色標註 209
12.5.1 語義角色標註標準 209
12.5.2 語義角色標註方法 211
12.6 信息提取 211
12.7 小結 212
第 13章 篇章分析 213
13.1 篇章 213
13.1.1 連貫性關系 213
13.1.2 篇章結構 214
13.1.3 篇章分析 215
13.2 共指消解 215
13.2.1 提及檢測 216
13.2.2 提及聚類 216
13.3 小結 220
總結與展望 221
參考文獻 223
中英文術語對照表 228
附 錄 234


