相關主題
商品描述
本書介紹了智能問答技術的發展歷史和分類、基於文本理解的智能問答中的關鍵技術和前沿研究問題,包括基於多域檢索和融合的文本問答方法、基於偏序關系排序的文本問答方法、基於文本閱讀理解的場景文本視覺問答方法、基於對比學習語義補齊的場景文本視覺問答方法、基於先驗知識的場景文本視覺問答方法,並對智能問答技術的未來進行了展望。本書內容前沿、理論與實踐並重,適合作為人工智能、智能問答領域研究人員、技術人員的參考書,也適合作為人工智能相關專業本科生或研究生的教材。
作者簡介
殷緒成,教授、博導,模式識別與人工智能專家, 傑出青年科學基金項目獲得者、科技創新2030——“新一代人工智能”重大項目首席科學家,北京科技大學計算機與通信工程學院院長、模式識別與人工智能技術創新實驗室主任,中國圖象圖形學學會文檔圖像分析與識別專委會副主任/秘書長、中國自動化學會模式識別與機器智能專委會委員、中國計算機學會計算機視覺專委會委員、中國人工智能學會模式識別專委會委員。主要研究領域包括模式識別、文字識別、計算機視覺、人工智能芯片、工業智能與工業軟件技術及應用,在中國計算機學會 期刊和會議上發表論文一百多篇,連續四屆榮獲 文檔分析與識別大會技術競賽共15項 ,獲2019年度北京市科技進步一等獎( 完成人)、2018年度 科技進步二等獎( 完成人)、2005年度北京市科技進步一等獎(主要成員)。
目錄大綱
目 錄
前言
第 1 章 智慧問答概述 / 1
1.1 引言 / 1
1.2 智慧問答簡史 / 4
1.3 智慧問答系統的分類 / 6
1.4 本章小結 / 11
第 2 章 基於文本理解的智慧問答中的關鍵技術 / 13
2.1 文本理解的相關技術 / 13
2.1.1 機器閱讀理解 / 13
2.1.2 知識問答 / 14
2.1.3 答案選擇 / 16
2.1.4 知識庫的引入 / 18
2.1.5 提示學習 / 20
2.2 視覺與語言多模態學習 / 21
2.2.1 註意力機制 / 21
2.2.2 多模態融合 / 23
2.2.3 影像-文本跨模態預訓練 / 24
2.3 視覺問答 / 26
2.3.1 視覺問答方法 / 26
2.3.2 場景文本視覺問答 / 28
2.4 本章小結 / 30
第 3 章 基於多域檢索與融合的文本問答方法 / 31
3.1 引言 / 31
3.2 方法概述 / 33
3.3 查詢處理 / 33
3.3.1 查詢精簡 / 34
3.3.2 查詢擴增 / 34
3.4 檢索 / 34
3.4.1 查詢似然模型 / 34
3.4.2 順序依賴模型 / 35
3.4.3 欄位順序依賴模型 / 36
3.4.4 隨機性臨近散度模型 / 38
3.5 多模式策略組合 / 38
3.6 實驗驗證 / 39
3.6.1 資料集與評價指標 / 39
3.6.2 實驗設定 / 42
3.6.3 不同模型組合對模型效能的影響 / 43
3.6.4 與前沿方法的對比實驗 / 46
3.6.5 與醫學問答系統的對比實驗 / 47
3.6.6 實驗結果分析 / 49
3.7 本章小結 / 51
第 4 章 基於偏序關係排序的文本問答方法 / 52
4.1 引言 / 52
4.2 候選項與候選項模型 / 53
4.3 用於答案選擇的多任務學習 / 57
4.4 實驗驗證 / 59
4.4.1 資料集與評價指標 / 59
4.4.2 實驗設定 / 60
4.4.3 WikiQA 上的效能比較 / 60
4.4.4 TREC-QA 上的效能比較 / 61
4.4.5 Insurance QA 上的效能比較 / 63
4.4.6 BioASQ 上的效能比較 / 64
4.4.7 變體方法對比實驗 / 66
4.5 本章小結 / 68
第 5 章 基於文本閱讀理解的場景文本視覺問答方法 / 69
5.1 引言 / 69
5.2 文本閱讀理解 / 73
5.2.1 影像處理 / 73
5.2.2 問題理解 / 73
5.2.3 場景文本與目標理解 / 74
5.2.4 關係推理 / 76
5.3 答案預測 / 77
5.3.1 答案候選項生成 / 77
5.3.2 答案語意匹配 / 78
5.3.3 語意推理 / 79
5.4 實驗驗證 / 80
5.4.1 資料集與評價指標 / 80
5.4.2 文本與目標檢測識別模型 / 82
5.4.3 不同模組對模型效能的影響 / 83
5.4.4 OCR 準確率對效能的影響 / 86
5.4.5 與前沿方法的對比實驗 / 87
5.4.6 關鍵模組對答案預測的影響 / 90
5.4.7 定性樣例分析 / 91
5.5 本章小結 / 92
第 6 章 基於對比學習語意補齊的場景文本視覺問答方法 / 94
6.1 引言 / 94
6.2 場景文本對比學習 / 98
6.2.1 OCR 文本語意表示 / 98
6.2.2 OCR 文本增強 / 99
6.2.3 多模態融合 / 100
6.2.4 OCR 文本與單詞對比學習 / 100
6.2.5 損失函數 / 101
6.3 答案預測 / 101
6.4 實驗驗證 / 103
6.4.1 資料集與評價指標 / 103
6.4.2 與前沿方法的對比實驗 / 106
6.4.3 不同 OCR 文本語意表示的對比實驗 / 108
6.4.4 各模組對模型效能的影響 / 109
6.4.5 不同來源答案預測的對比實驗 / 110
6.4.6 ST-VQA 資料集預測結果的對比分析 / 111
6.4.7 TextCaps 資料集的對比實驗與結果展示 / 113
6.5 本章小結 / 115
第 7 章 基於先驗知識的場景文本視覺問答方法 / 116
7.1 引言 / 116
7.2 先驗知識檢索與驗證 / 117
7.2.1 OCR 文本相關實體查詢 / 118
7.2.2 問題相關先驗知識檢索 / 119
7.2.3 基於提示學習的先驗知識驗證 / 119
7.3 先驗知識融合推理 / 120
7.3.1 場景文本與先驗知識對齊 / 120
7.3.2 多模態融合推理 / 121
7.4 答案預測 / 122
7.5 實驗驗證 / 123
7.5.1 與前沿方法的對比實驗 / 124
7.5.2 不同提示模板預測準確率的對比 / 127
7.5.3 各模組對模型效能的影響 / 129
7.5.4 不同資料子集的對比實驗 / 129
7.5.5 KgMr 預測結果的對比分析 / 130
7.6 本章小結 / 132
第 8 章 總結與展望 / 133
8.1 研究總結 / 133
8.2 未來展望 / 134
參考文獻 / 135
