基於 NLP 的內容理解
李明琦//谷雪//孟子堯
- 出版商: 機械工業
- 出版日期: 2023-03-01
- 定價: $594
- 售價: 7.9 折 $469
- 語言: 簡體中文
- 頁數: 242
- 裝訂: 平裝
- ISBN: 7111720695
- ISBN-13: 9787111720690
-
相關分類:
Natural Language Processing
立即出貨
買這商品的人也買了...
-
UX 從新手開始|使用者體驗的 100堂必修課 (UX for Beginners: A Crash Course in 100 Short Lessons)$480$379 -
Python 資料分析, 2/e (Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2/e)$880$695 -
網站擷取|使用 Python, 2/e (Web Scraping with Python: Collecting More Data from the Modern Web, 2/e)$580$458 -
精通 CSS 高級 Web 標準解決方案, 3/e$594$564 -
Python 技術者們 - 練功!老手帶路教你精通正宗 Python 程式 (The Quick Python Book, 3/e)$780$663 -
$370群體智能與仿生計算:Matlab 技術實現, 2/e -
$862React 全家桶 : 前端開發與實例詳解 (Fullstack React: The Complete Guide to ReactJS and Friends) -
React 學習手冊, 2/e (Learning React: Modern Patterns for Developing React Apps, 2/e)$580$458 -
$505基於混合方法的自然語言處理:神經網絡模型與知識圖譜的結合 -
Python 資料分析必備套件!Pandas 資料清理、重塑、過濾、視覺化 (Pandas 1.x Cookbook, 2/e)$780$663 -
$403左手Python,右手Excel:帶飛Excel的Python絕技 -
圖解半導體:從設計、製程、應用一窺產業現況與展望$420$357 -
$774分佈式人工智能 -
$352Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI -
$509群體智能與演化博弈 -
$811Nuxt.js Web 開發實戰 -
$483自然語言處理應用與實戰 -
GPT 語言模型大揭密:OpenAI API 應用全攻略,打造頂尖 NLP 產品 (GPT-3: The Ultimate Guide to Building NLP Products with OpenAI API)$600$468 -
ChatGPT 指令大全與創新應用:GPT-4 搶先看、串接 API、客服機器人、AI英文家教,一鍵打造 AI智慧產品$680$449 -
$469精通 Transformer : 從零開始構建最先進的 NLP 模型 -
$505Doris 實時數倉實戰 -
運算思維程式講堂:打好 Python x ChatGPT 基礎必修課$560$437 -
$450與 AI 對話:ChatGPT 提示工程揭秘 -
$398深度強化學習實戰 用 OpenAI Gym 構建智能體 -
ChatGPT 原理,從 PyTorch 中的 NLP 功能讓你一腳跨入自然語言$880$695
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
這是一本講述如何用NLP技術進行文本內容理解的著作,
也是一本系統講解NLP算法的著作,是作者在NLP和內容理解領域多年經驗的總結。
本書結合內容理解的實際業務場景,系統全面、
循序漸進地講解了各種NLP算法以及如何用這些算法高效地解決內容理解方面的難題,主要包括如下幾個方面的內容:
(1)文本特徵表示
文本特徵表示是NLP的基石,也是內容理解的基礎環節,
本書詳細講解了離散型表示方法和分佈型表示方法等特徵表示方法及其應用場景,還講解了詞向量的評判標準。
(2)內容重複理解
詳細講解了標題重複、段落重複、文章重複的識別方法和去重算法。
(3)內容通順度識別及糾正
詳細講解了內容通順度的識別方法以及糾正不通順內容的方法。
(4)內容質量
詳細講解了多種內容質量相關的算法,以及如何搭建高質量的知識問答體系的流程。
(5)標籤體系構建
詳細講解了針對內容理解的標籤體系的建設流程和方法,以及多種相關算法。
(6)文本摘要生成
詳細講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法,以及文本摘要的常用數據集和文本摘要評價方法。
(7)文本糾錯
詳細講解了文本糾錯的傳統方法、深度學習方法、工業界解決方案,以及常用的文本糾錯工具的安裝和使用。
作者簡介
李明琦,資深AI技術專家,現任職於BAT,擔任資深演算法工程師。長期致力於機器學習、深度學習、NLP等技術在實際業務場景中的落地,在內容理解方面有豐富的經驗,主導的內容品質專案曾獲得最佳專案獎。先後發表人工智能相關的學術論文2篇,申請人工智能領域的發明專利5項。在GitHub上貢獻了大量內容品質、問答系統、NLP等方面的程式碼,在CSDN撰寫了一些與演算法、機器學習、內容理解相關的文章,深受歡迎。
目錄大綱
前言
第1章文本特徵表示1
1.1 語料與語料預處理1
1.1.1 語料和語料庫1
1.1.2 語料預處理2
1.2 文本特徵表示方法6
1.2.1 離散型特徵表示方法6
1.2.2 分佈型特徵表示方法13
1.3 詞向量的評判標準29
1.3.1 內部評估29
1.3.2 外在評估31
1.4 本章小結34
第2章內容重複理解35
2.1 標題重複35
2.1.1 標題符號規整化處理36
2.1.2 Jieba分詞39
2.1.3 LAC分詞43
2.1.4 基於分詞及字符串等
方式進行重複識別45
2.2 段落重複識別實例47
2.2.1 段落重複識別47
2.2.2 基於N-gram算法進行
內容去重48
2.2.3 平滑處理技術54
2.3 基於相似度計算的文章判重57
2.3.1 文本相似度計算任務
的分析57
2.3.2 距離度量方式58
2.3.3 基於SimHash算法進行
文本重複檢測62
2.4 本章小結66
第3章內容通順度識別及糾正67
3.1 數據增強67
3.2 基於FastText算法的句子
通順度識別73
3.2.1 CBOW模型74
3.2.2 FastText算法原理75
3.2.3 FastText算法實戰81
3.3 基於TextCNN算法的分類
任務實現93
3.3.1 專有名詞簡介93
3.3.2 算法介紹94
3.3.3 參數調優經驗總結96
3.3.4 基於Keras工具實現TextCNN算法96
3.4 基於TextRNN算法的分類
任務實現98
3.4.1 LSTM和BiLSTM 98
3.4.2 TextCNN和TextRNN
識別效果對比105
3.5 基於Seq2Seq模型的
糾正策略106
3.5.1 Seq2Seq模型原理106
3.5.2 糾正不通順句子的方法108
3.6 本章小結114
第4章內容質量116
4.1 GBDT算法116
4.1.1 GBDT算法概述117
4.1.2 負梯度擬合117
4.1.3 GBDT回歸算法118
4.1.4 GBDT分類算法119
4.2 XGBoost算法121
4.2.1 從GBDT到XGBoost 121
4.2.2 XGBoost損失函數122
4.2.3 XGBoost損失函數的
優化求解124
4.2.4 XGBoost算法流程125
4.2.5 XGBoost算法參數
及調優127
4.3 知識問答質量體系的搭建129
4.3.1 知識問答質量體系
建立的意義130
4.3.2 整體的項目實施方案130
4.3.3 知識問答質量體系
搭建流程133
4.4 本章小結142
第5章標籤體系構建143
5.1 標籤體系143
5.1.1 標籤體系的重要性143
5.1.2 標籤體系的分類144
5.1.3 構建標籤體系146
5.2 TF-IDF算法151
5.2.1 TF-IDF算法介紹151
5.2.2 TF-IDF算法實現152
5.3 PageRank算法155
5.4 TextRank算法163
5.4.1 TextRank算法的使用
場景164
5.4.2 TextRank算法的
優缺點168
5.5 本章小結168
第6章文本摘要生成169
6.1 文本摘要相關介紹169
6.1.1 文本摘要問題定義169
6.1.2 文本摘要分類170
6.1.3 文本摘要的技術和方法170
6.2 基於無監督的抽取式文本摘要172
6.2.1 基於經驗的文本摘要173
6.2.2 基於主題模型的
文本摘要175
6.2.3 基於圖的文本摘要182
6.2.4 基於特徵評分的
文本摘要185
6.2.5 基於聚類的文本摘要188
6.3 基於有監督的抽取式文本摘要191
6.4 基於深度神經網絡的生成式
文本摘要201
6.5 文本摘要常用數據集210
6.6 文本摘要評價方法211
6.6.1 自動評價方法211
6.6.2 人工評價方法213
6.7 本章小結213
第7章文本糾錯214
7.1 錯誤來源及類型214
7.2 文本糾錯的3種傳統方法215
7.2.1 模板匹配215
7.2.2 編輯距離匹配216
7.2.3 HANSpeller++框架217
7.3 文本糾錯深度學習方法220
7.3.1 英文文本糾錯方法220
7.3.2 中文文本糾錯方法224
7.4 工業界解決方法233
7.4.1 3階段級聯的糾錯方案234
7.4.2 符合多種場景的通用
糾錯方案236
7.4.3 保險文本的糾錯方案237
7.5 文本糾錯工具239
7.5.1 pycorrector 239
7.5.2 xmnlp 240
7.6 本章小結242
