智能文本處理實戰

達觀數據

  • 出版商: 人民郵電
  • 出版日期: 2024-01-01
  • 定價: $599
  • 售價: 8.5$509
  • 語言: 簡體中文
  • 頁數: 445
  • ISBN: 7115630186
  • ISBN-13: 9787115630186
  • 下單後立即進貨 (約2週~3週)

  • 智能文本處理實戰-preview-1
  • 智能文本處理實戰-preview-2
智能文本處理實戰-preview-1

商品描述

讓電腦自動處理文字一直以來都是我們工作中的重要訴求,而文字的表現形式是多樣的,目前,單純使用自然語言處理技術已無法滿足復雜的實際工作場景的需求。本書詳細介紹了達觀數據多年來在智能文本處理領域的實戰經驗,從核心技術、相關產品、行業場景案例等多角度出發,幫助讀者全面理解智能文本處理技術的意義和價值。全書分為三大部分:第一部分介紹智能文本處理的基礎知識、意義和相關核心技術;第二部分介紹智能文本處理項目實施經驗以及在不同場景和產品中的應用;第三部分總結達觀智能文本處理技術與不同行業場景的結合,供各行業有智能文本處理需求的讀者參考。

作者簡介

达观数据专注于智能文本处理技术,是行业内专精特新“小巨人”企业,也曾荣获中国人工智能领域奖项“吴文俊人工智能奖”。达观数据开发的“曹植”大语言模型基于该企业长期积累的技术和经验,能够为大型企业和机构提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐、办公流程自动化等服务。目前,达观数据在行业内市场占有率排名靠前,案例数量众多,已帮助数百家企业提高生成效率、降低成本、提升业务合规性,助力企业实现数字化转型,提升竞争力和创新能力。

目錄大綱

第 一部 基礎知識

第 1章 智能文本處理概覽 2

1.1 什麽是智能文本處理 2

1.1.1 智能文本處理概念 2

1.1.2 智能文本處理技術 5

1.1.3 智能文本處理的價值 7

1.2 NLP技術簡介 8

1.2.1 基本概念 9

1.2.2 文本自動處理層次劃分 11

1.2.3 研究現狀及主要方法 15

1.3 書面文本處理和短文本處理 17

1.3.1 不同處理類型 17

1.3.2 書面文本應用舉例 19

1.3.3 短文本應用舉例 22

1.3.4 處理差異比較 26

1.4 機器學習與NLP 28

1.4.1 機器學習的基本概念與歷史 28

1.4.2 常見的機器學習任務與方法 33

1.4.3 常見機器學習問題與NLP 34

1.4.4 實戰:如何使用機器學習方法檢測垃圾郵件 39

1.5 深度學習與NLP 44

1.5.1 深度學習和傳統機器學習的差別 44

1.5.2 深度學習對NLP的推進 51

1.5.3 深度學習研究在NLP中的局限性 54

第 2章 NLP技術概覽 59

2.1 語言模型 59

2.1.1 語言模型基本概念 59

2.1.2 N-gram語言模型 61

2.1.3 神經網絡語言模型 63

2.1.4 大規模預訓練語言模型 68

2.2 分詞與詞性標註 71

2.2.1 概述 71

2.2.2 分詞技術詳解 73

2.2.3 詞性識別詳解 76

2.3 NER 78

2.3.1 基本概念 78

2.3.2 基於規則的NER 81

2.3.3 基於序列標註的NER 83

2.3.4 數據增強方法 86

2.4 文本分類概述 88

2.4.1 文本分類任務的基本定義 88

2.4.2 基於機器學習的文本分類 89

2.4.3 基於深度學習的文本分類 92

2.4.4 文本分類算法評估 98

2.4.5 實踐經驗與技術進階 100

2.5 指代消解 102

2.5.1 基本概念 102

2.5.2 指代消解技術發展 104

2.5.3 基於二元分類的機器學習方法 107

2.5.4 基於端到端的神經網絡方法 108

2.5.5 基於自註意力機制的無監督方法 111

2.6 NLG 113

2.6.1 應用場景 113

2.6.2 文本摘要 114

2.6.3 機器翻譯 118

2.6.4 圖像生成文本 120

2.6.5 NLG評估方法 123

第3章 書面文本處理關鍵技術 124

3.1 文檔格式解析技術 124

3.1.1 Word格式解析 124

3.1.2 PDF格式解析 126

3.1.3 其他格式解析 131

3.2 文檔版面分析技術 132

3.2.1 版面分析簡介及發展歷程 133

3.2.2 基於啟發式規則的版面分析技術 134

3.2.3 基於機器學習的版面分析技術 136

3.2.4 基於深度學習的版面分析技術 136

3.2.5 版面分析最佳實踐 142

3.3 文檔表格解析技術 145

3.3.1 表格解析技術背景介紹 145

3.3.2 表格類型劃分 148

3.3.3 區域檢測技術 148

3.3.4 表格結構識別 150

3.3.5 表格解析最佳實踐分享 153

3.4 光學字符識別技術 155

3.4.1 OCR技術簡介及發展歷程 156

3.4.2 OCR核心技術 157

3.4.3 文檔處理中的應用和實踐 167

3.5 文檔多模態技術 171

3.5.1 多模態介紹 171

3.5.2 多模態的主要任務 173

3.5.3 文檔多模態的主要應用 178

第二部分 項目覆蓋場景

第4章 產品技術實踐落地 184

4.1 項目團隊搭建 184

4.2 AI項目技術實現路徑 187

4.2.1 歸一化處理 188

4.2.2 字段分析處理 188

4.2.3 序列標註抽取 188

4.2.4 深度學習抽取 189

4.2.5 表格抽取 189

4.2.6 策略合並 189

4.2.7 人工規則 189

4.3 AI項目模型交付步驟 190

4.3.1 數據準備 190

4.3.2 模型訓練與調試 193

4.4 項目實施管理 195

4.4.1 項目實施階段分解 195

4.4.2 項目規劃階段 196

4.4.3 項目執行階段 196

4.4.4 項目驗收階段 198

4.4.5 項目監控 199

第5章 聊天機器人場景 200

5.1 聊天機器人概述 200

5.1.1 聊天機器人基本概念 200

5.1.2 聊天機器人類型 201

5.2 核心技術詳解 201

5.2.1 常見系統架構 201

5.2.2 對話引擎 204

5.3 應用場景 206

5.3.1 知識助手 206

5.3.2 智能客服 209

第6章 智能文檔處理場景 211

6.1 智能文檔處理場景概覽 211

6.1.1 智能文檔處理的內容 211

6.1.2 智能文檔產品的類型 212

6.2 智能文檔抽取產品 212

6.2.1 文檔識別與解析 213

6.2.2 圖像結構化抽取 215

6.2.3 文檔結構化抽取 219

6.2.4 智能文檔抽取場景介紹 222

6.3 智能文檔審核產品 225

6.3.1 文檔風險審核 225

6.3.2 智能文檔比對 229

6.3.3 智能文檔審核場景 232

6.4 智能文檔寫作產品 234

6.4.1 智能文檔寫作產品介紹 235

6.4.2 智能文檔寫作場景介紹 238

第7章 知識圖譜場景 239

7.1 知識圖譜概念 239

7.1.1 知識圖譜介紹 239

7.1.2 知識圖譜類型 242

7.1.3 系統架構實踐 243

7.2 知識圖譜核心技術 246

7.2.1 知識圖譜表示 246

7.2.2 知識圖譜存儲與構建 248

7.2.3 知識融合和知識推理 251

7.3 知識圖譜應用 253

7.3.1 知識圖譜問答 253

7.3.2 故障分析 256

7.3.3 語義檢索和智能決策 258

第8章 用戶體驗管理場景 260

8.1 為什麽要做用戶體驗管理 260

8.1.1 為什麽要做好用戶體驗管理 260

8.1.2 用戶體驗管理亟須革新調研方式 261

8.2 什麽是用戶體驗管理 261

8.2.1 用戶體驗管理的概念 262

8.2.2 用戶體驗管理涉及的數據來源 263

8.2.3 用戶體驗管理涉及的關鍵技術 265

8.3 用戶體驗管理的典型應用場景 269

8.3.1 賦能產品企劃設計 269

8.3.2 促進客戶關系維系 273

8.3.3 助力品牌傳播 274

8.4 用戶體驗管理產業實踐——以某製造業客戶為例 279

8.4.1 案例項目背景 279

8.4.2 用戶體驗管理解決方案 279

8.4.3 用戶體驗管理關鍵能力 285

8.4.4 業務價值 286

第9章 搜索推薦場景 288

9.1 文本處理技術在智能搜索中的應用 288

9.1.1 智能搜索概述 288

9.1.2 智能搜索系統架構 290

9.1.3 智能搜索中的文本挖掘算法 293

9.2 文本處理技術在智能推薦中的應用 296

9.2.1 智能推薦概述 296

9.2.2 智能推薦系統架構 298

9.2.3 智能推薦中的文本挖掘算法 301

第 10章 辦公機器人場景 304

10.1 辦公機器人介紹 304

10.1.1 什麽是辦公機器人 304

10.1.2 辦公機器人的組成 305

10.2 智能文本處理技術與辦公機器人的結合 306

10.2.1 智能文本處理拓展了辦公機器人的能力邊界 306

10.2.2 辦公機器人中的智能文本處理技術 307

10.3 智能文本處理機器人應用場景示例 307

10.3.1 供應商準入管理場景 307

10.3.2 企業招聘場景 309

10.3.3 企業文檔管理場景 311

10.3.4 證券業文檔審核場景 313

10.3.5 文檔寫作場景 315

第 11章 AIGC與智能寫作場景 317

11.1 智能寫作任務 317

11.1.1 智能寫作應用場景 317

11.1.2 智能寫作技術發展脈絡 317

11.2 基於RNN Seq2Seq的文本生成 318

11.3 文本生成前沿技術 319

11.3.1 UniLM 319

11.3.2 T5 321

11.3.3 BART 322

11.3.4 GPT 324

11.3.5 GPT-2 325

11.3.6 GPT-3 325

11.3.7 InstructGPT和ChatGPT 325

11.4 智能寫作算法評估 327

11.4.1 基於詞匯 328

11.4.2 基於語義 328

11.4.3 公開數據集 329

11.5 技術挑戰與展望 329

第三部分 行業案例經驗

第 12章 銀行業與智能文本處理 332

12.1 銀行業務場景介紹 332

12.2 銀行業數字化轉型 333

12.2.1 銀行業數字化轉型現狀 333

12.2.2 銀行業數字化轉型思路 333

12.3 銀行業落地項目案例介紹 334

12.3.1 智慧信貸案例介紹 334

12.3.2 國際業務中的智能審單案例介紹 339

12.3.3 智能審貸案例介紹 342

12.3.4 RPA+IDP在銀行業中的應用案例介紹 344

第 13章 證券業與智能文本處理 347

13.1 證券業數字化轉型現狀 347

13.1.1 IT投入不足 347

13.1.2 人才支撐不足 349

13.1.3 業務與技術的融合不足 350

13.1.4 證券業數字化轉型思路 350

13.2 證券業的文本處理應用場景 350

13.2.1 經紀業務:智能資訊 350

13.2.2 資產托管業務:智能文檔處理 352

13.2.3 投資銀行業務:智能底稿系統 353

13.2.4 投資銀行業務:銀行流水智能核查 356

13.2.5 投資銀行業務:申報材料智能審核 358

13.2.6 投研業務:智能投研一體化管理平臺 360

第 14章 保險業與智能文本處理 366

14.1 行業背景與現狀 366

14.2 數字化建設思路 367

14.2.1 科技與保險深度融合 367

14.2.2 開展全域數字化建設 367

14.3 智能解決方案 369

14.3.1 智慧營銷 369

14.3.2 醫療票據識別 372

14.3.3 智慧運營管理 375

14.3.4 客服語義分析 376

14.3.5 智能知識管理 377

第 15章 大型企業創新應用實戰 383

15.1 大型企業科技創新前景與挑戰 383

15.1.1 創新應用背景 383

15.1.2 數字化轉型難點 384

15.1.3 如何做好人工智能項目 385

15.2 人工智能技術與業務融合場景 386

15.2.1 法務智能輔助審核 386

15.2.2 智能報關票據審核 391

15.2.3 商務智能詢報價 393

15.3 行業落地案例分享 394

15.3.1 某頭部安防企業智能文本審閱系統項目 394

15.3.2 某大型報關行智能數據處理系統 395

15.3.3 某大型工業品超市智能詢報價系統 397

第 16章 智能製造與智能文本處理 399

16.1 智能製造中的質量與可靠性工程 399

16.1.1 智能製造 399

16.1.2 質量與可靠性工程 400

16.1.3 FMEA 401

16.2 FMEA知識圖譜 404

16.2.1 FMEA知識圖譜的定義與價值 404

16.2.2 FMEA知識圖譜模式 405

16.2.3 構建FMEA知識圖譜 406

16.3 FMEA知識圖譜應用示範 407

16.3.1 FMEA應用功能介紹 407

16.3.2 具體應用案例分析 413

第 17章 建工行業與智能文本處理 417

17.1 數字化建設思路 417

17.1.1 從一線業務角度思考 417

17.1.2 從高層管理角度思考 418

17.2 智能解決方案 419

17.2.1 智慧建工項目管理 419

17.2.2 智慧工程圖紙應用 423

17.2.3 智慧建工標準圖譜 426

17.2.4 智慧建工城市背調 428

第 18章 互聯網及傳媒與智能文本處理 431

18.1 行業現狀與背景 431

18.2 互聯網及傳媒行業數字化轉型思路 431

18.2.1 充分挖掘信息,發揮數據價值 432

18.2.2 構建關系網絡,信息處理更智能 432

18.2.3 立足用戶需求,展現個性化內容 432

18.3 互聯網及傳媒行業應用場景 434

18.3.1 基於廣電行業分析文本解析的應用價值 434

18.3.2 基於社交行業分析知識圖譜的應用價值 437

18.3.3 基於資訊行業分析智能推薦的應用價值 440

18.3.4 基於電商行業分析智能.搜索的應用價值 441