智能信息檢索理論與方法
- 出版商: 清華大學
- 出版日期: 2026-06-01
- 售價: $354
- 語言: 簡體中文
- ISBN: 7302716862
- ISBN-13: 9787302716860
-
相關分類:
Natural Language Processing
下單後立即進貨 (約4週~6週)
商品描述
目錄大綱
目錄
第1 章引論
1.1 信息檢索的定義............................................................................ 1
1.2 信息檢索的起源與發展................................................................... 2
1.2.1 信息檢索的起源.................................................................. 2
1.2.2 信息檢索的發展歷史............................................................ 3
1.3 信息檢索的兩個任務...................................................................... 4
1.3.1 信息的序化組織.................................................................. 4
1.3.2 信息的檢索利用.................................................................. 10
1.4 現代信息檢索的主要內容................................................................ 13
1.4.1 研究對象........................................................................... 13
1.4.2 任務目標........................................................................... 14
1.4.3 工作流程........................................................................... 14
1.4.4 設計難點........................................................................... 15
1.5 讀者指南.................................................................................... 16
思考與練習......................................................................................... 17
第2 章二值向量表示與布爾檢索
2.1 從詞項-文檔關聯矩陣到倒排索引...................................................... 18
2.1.1 詞項-文檔關聯矩陣.............................................................. 18
2.1.2 倒排索引:詞項-文檔關聯矩陣的精簡表示................................. 20
2.2 詞典組織............................................................................... 21
2.2.1 排序數組........................................................................... 22
2.2.2 哈希加鏈表........................................................................ 22
2.2.3 樹狀組織方式..................................................................... 23
2.3 常規布爾檢索及其優化................................................................... 25
2.3.1 布爾檢索的常規方法............................................................ 25
2.3.2 布爾檢索的速度優化............................................................ 28
2.4 高級布爾檢索........................................................................... 29
2.4.1 短語檢索........................................................................... 29
2.4.2 通配檢索........................................................................... 32
2.5 索引處理流程.......................................................................... 34
2.5.1 從待索引對象到倒排索引的整體流程........................................ 34
2.5.2 文件解析——獲取待索引的文本.............................................. 35
2.5.3 詞符切分——將文本切分為詞符序列........................................ 36
2.5.4 語言分析——將詞符規範化為詞項........................................... 37
2.6 布爾檢索模型及其特點................................................................... 39
思考與練習................................................................................ 39
第3 章加權向量表示與排序式檢索
3.1 向量空間模型.......................................................................... 40
3.1.1 文檔的加權向量表示............................................................ 41
3.1.2 權重計算:詞頻與逆文檔頻率................................................. 41
3.1.3 相似度計算........................................................................ 43
3.2 概率檢索模型......................................................................... 45
3.2.1 概率檢索模型的基本假設....................................................... 45
3.2.2 二值獨立模型..................................................................... 46
3.2.3 BM25 模型......................................................................... 50
3.3 基於統計語言模型的檢索模型.......................................................... 52
3.3.1 統計語言模型..................................................................... 52
3.3.2 查詢似然模型..................................................................... 53
3.4 查詢處理中的索引遍歷................................................................... 54
3.4.1 一次一詞項方式.................................................................. 55
3.4.2 一次一文檔方式.................................................................. 55
3.5 快速評分計算與排序...................................................................... 56
3.5.1 精確Top K 評分計算與排序................................................... 56
3.5.2 非精確Top K 評分計算與排序................................................ 58
思考與練習................................................................................ 61
第4 章嵌入表示與向量檢索
4.1 詞嵌入....................................................................... 62
4.1.1 整數索引、獨熱編碼與詞嵌入表示........................................... 62
4.1.2 靜態詞嵌入........................................................................ 64
4.1.3 動態詞嵌入........................................................................ 71
4.2 文本嵌入表示............................................................. 73
4.2.1 Doc2Vec ............................................................................ 74
4.2.2 基於Transformer 網絡架構的文本嵌入...................................... 74
4.3 圖像嵌入與基於內容的圖像檢索....................................................... 81
4.4 多模態嵌入與跨模態檢索................................................................ 84
4.5 向量近似近鄰檢索............................................................. 86
4.5.1 基於樹的ANN 檢索.............................................................. 86
4.5.2 基於哈希的ANN 檢索........................................................... 91
4.5.3 基於量化的ANN 檢索........................................................... 91
4.5.4 基於圖的ANN 檢索.............................................................. 97
4.5.5 ANN 檢索工具包................................................................. 99
思考與練習...................................................................... 100
第5 章基於哈希的相似項檢索
5.1 大規模相似項檢索的目標................................................................ 101
5.2 最小哈希(MinHash) ................................................................... 103
5.2.1 文檔的k-shingle 表示............................................................ 103
5.2.2 最小哈希與Jaccard 相似度..................................................... 104
5.2.3 最小哈希簽名向量的相似度計算.............................................. 106
5.2.4 大規模簽名向量的快速比對.................................................... 108
5.3 相似哈希(SimHash) ................................................................... 111
5.3.1 相似哈希的指紋計算............................................................ 111
5.3.2 相似哈希指紋的快速比對....................................................... 112
5.4 局部敏感哈希(LSH) ................................................................... 114
5.4.1 LSH 的基本思想.................................................................. 114
5.4.2 LSH 的碰撞概率與距離測度................................................... 115
5.4.3 常見LSH 函數族.................................................................. 116
5.4.4 LSH 的索引與查找............................................................... 121
5.5 相似項檢索算法的對比................................................................... 122
思考與練習........................................................................ 123
第6 章索引構建與壓縮
6.1 索引構建..................................................................... 124
6.1.1 單機索引........................................................................... 124
6.1.2 分布式索引........................................................................ 128
6.1.3 動態索引........................................................................... 131
6.2 索引壓縮.................................................................. 132
6.2.1 索引壓縮的目的與詞項統計特性.............................................. 132
6.2.2 詞典壓縮........................................................................... 134
6.2.3 倒排記錄表壓縮.................................................................. 136
思考與練習.......................................................................... 142
第7 章查詢理解
7.1 查詢理解的主要任務....................................................... 144
7.2 查詢標記與查詢意圖分類:分析用戶信息需求...................................... 146
7.2.1 用戶檢索行為..................................................................... 146
7.2.2 查詢標記........................................................................... 146
7.2.3 查詢意圖分類..................................................................... 148
7.3 查詢優化:變換查詢以產生更好的結果.............................................. 149
7.3.1 相關反饋........................................................................... 150
7.3.2 查詢改寫........................................................................... 153
7.4 查詢推薦:輔助用戶查詢................................................................ 156
7.4.1 查詢自動補全..................................................................... 156
7.4.2 相關搜索........................................................................... 157
思考與練習........................................................................ 160
第8 章檢索評價
8.1 無序結果集評價........................................................ 161
8.1.1 查準率和查全率.................................................................. 162
8.1.2 精度指標........................................................................... 163
8.1.3 大數據集下的查全率計算....................................................... 163
8.1.4 F 值——查準率和查全率的指標融合........................................ 164
8.2 有序結果集評價.......................................................... 164
8.2.1 PR 曲線與PR-AUC ............................................................. 165
8.2.2 ROC 曲線與ROC-AUC ......................................................... 166
8.2.3 P@K ............................................................................... 167
8.2.4 R查準率........................................................................... 168
8.2.5 平均查準率(AP) .............................................................. 168
8.2.6 倒數排序(RR) ................................................................. 169
8.2.7 nDCG 評價指標.................................................................. 169
8.2.8 bpref ............................................................. 173
8.3 多個查詢的綜合評價..................................................... 174
8.3.1 宏平均與微平均.................................................................. 174
8.3.2 平均查準率均值(MAP) ...................................................... 175
8.3.3 幾何平均查準率均值(GMAP) ............................................. 175
8.3.4 平均倒數排序(MRR) ........................................................ 176
思考與練習..................................................................... 176
第9 章Web 搜索引擎與檢索增強生成
9.1 Web 與搜索引擎基礎..................................................................... 178
9.1.1 Web 交互過程..................................................................... 178
9.1.2 Web 核心概念..................................................................... 179
9.1.3 Web 搜索引擎的發展歷史...................................................... 180
9.1.4 搜索引擎的技術架構............................................................ 182
9.2 Web 采集............................................................. 183
9.2.1 單網頁采集方法.................................................................. 183
9.2.2 分布式爬蟲采集.................................................................. 186
9.2.3 動態網頁與深網采集............................................................ 187
9.2.4 爬蟲禮儀........................................................................... 188
9.3 鏈接分析............................................................. 189
9.3.1 超鏈接錨文本加權............................................................... 190
9.3.2 基於PageRank 的網頁重要性分析............................................ 190
9.3.3 基於HITS 的網頁權威性分析.................................................. 194
9.3.4 SALSA 算法....................................................................... 197
9.3.5 Hilltop 算法........................................................................ 200
9.4 排序學習................................................................ 202
9.5 檢索增強生成:搜索引擎與大語言模型的結合...................................... 203
9.5.1 RAG 核心模塊.................................................................... 204
9.5.2 RAG 系統的演進................................................................. 205
9.5.3 信息檢索對大語言模型的增強作用........................................... 206
思考與練習.......................................................................... 207
參考文獻



