AI搜索:基礎與前沿

鄒敏

相關主題

商品描述

本書系統介紹了搜尋引擎的技術發展歷程與前沿趨勢,內容分為三大部分:
搜尋引擎基礎、深度資訊檢索模型與演算法以及AI搜尋前沿。
第一部分涵蓋了搜尋引擎的核心架構與關鍵技術,包括基本系統架構、查詢理解、索引技術、關鍵字檢索、排序學習等內容,
為讀者提供了現代搜尋系統的技術框架和實踐參考。
第二部分詳細探討了深度學習技術在資訊檢索的應用,包括深度召回模型、k近鄰檢索演算法、深度相關性模型、深度排序模型等,
並透過案例展示如何將這些技術應用於實際問題。
第三部分則聚焦於AI搜尋尖端技術,介紹了大語言模型基礎、AI搜尋實務、生成式資訊檢索,
探討了AI搜尋時代的技術特徵及未來發展方向。
本書附有豐富的實踐案例和程式碼範例,可以幫助讀者將理論知識付諸實踐,
既適合想了解AI搜尋相關內容的初學者學習,也適合AI搜尋領域的相關從業人員參考。

目錄大綱

第 一部分 搜尋引擎基礎
第 1章 搜尋引擎的基本系統架構 3
1.1 網頁抓取 4
1.1.1 網頁抓取過程 4
1.1.2 網頁抓取系統的組成部分 4
1.1.3 爬蟲系統的衡量指標 5
1.2 內容理解 5
1.2.1 頁面分析 6
1.2.2 網頁分類 6
1.3 索引建構 7
1.3.1 索引的資料來源 7
1.3.2 索引結構與壓縮演算法 7
1.3.3 索引的分片、複本與分級策略 8
1.4 查詢理解 9
1.4.1 查詢詞預處理 10
1.4.2 查詢改寫 10
1.4.3 查詢擴充 10
1.4.4 時效性分析 11
1.4.5 查詢分類 11
1.5 召回 11
1.5.1 關鍵字召回 12
1.5.2 語意召回 12
1.6 排序 12
1.6.1 特徵工程 12
1.6.2 排序模型 13
1.6.3 多層次排序架構 13
1.7 其他 14
1.8 小結 15
第 2章 查詢理解 16
2.1 查詢語法與查詢解析 16
2.1.1 基本查詢語法 16
2.1.2 查詢解析 17
2.2 查詢詞預處理 18
2.3 拼字糾錯 19
2.4 詞權重計算 22
2.4.1 詞權重模型 23
2.4.2 詞權重模型訓練過程 23
2.4.3 詞權重應用 24
2.4.4 其他詞權重計算方法 25
2.5 查詢分類 25
2.5.1 垃圾查詢識別 25
2.5.2 時效性查詢辨識 26
2.6 查詢擴充 29
2.6.1 基於詞典的查詢擴展 30
2.6.2 基於相關文件的查詢擴充 30
2.6.3 基於向量化表示的查詢擴展 31
2.6.4 基於大語言模型的查詢擴展 31
2.7 查詢改寫 33
2.7.1 基於機器翻譯模型的查詢改寫 33
2.7.2 基於大語言模型的查詢改寫 33
2.8 小結 35
第3章 倒排索引技術 36
3.1 倒排索引的基本架構 36
3.1.1 詞典 37
3.1.2 倒排列表 40
3.2 索引壓縮演算法 41
3.2.1 索引塊壓縮演算法 42
3.2.2 位元組壓縮演算法 48
3.2.3 索引結構範例 49
3.3 索引合併 50
3.3.1 倒排列表的基本合併運算 51
3.3.2 基於二分查找的倒排索引合併 52
3.3.3 基於跳表的倒排索引合併 52
3.4 倒排索引的建構 53
3.4.1 關鍵字分詞 54
3.4.2 索引建構 54
3.5 倒排索引的分散式服務 59
3.6 案例一:使用 Lucene 進行搜尋 59
3.7 案例二:基於 Elasticsearch 的關鍵字索引 63
3.8 小結 66
第4章 關鍵字檢索 67
4.1 預備知識與準備工作 67
4.2 文本相關性 69
4.2.1 命中頻次特徵 69
4.2.2 命中緊密度特徵 74
4.2.3 語言模型特徵 78
4.2.4 意圖匹配特徵 79
4.3 權威性計算 79
4.4 文件的時效性計算 80
4.5 點選回饋 81
4.6 特徵融合 82
4.6.1 線性組合 82
4.6.2 相關性優先組合 83
4.6.3 機器學習組合 83
4.6.4 混合組合 84
4.7 小結 84
第5章 排序學習 86
5.1 排序效果的評估指標 86
5.1.1 精確率與召回率 86
5.1.2 MRR 87
5.1.3 MAP 88
5.1.4 AUC 89
5.1.5 NDCG 90
5.2 經典相關性模型 91
5.2.1 BM25 91
5.2.2 向量空間模型 92
5.2.3 語言模型 92
5.2.4 經典相關性模型的缺點 93
5.3 經典排序學習方法 94
5.3.1 Pointwise  95
5.3.2 Pairwise  96
5.3.3 Listwise  99
5.4 經典機器學習模型 100
5.4.1 線性函數 100
5.4.2 多項式迴歸 100
5.4.3 邏輯迴歸 100
5.4.4 梯度提升決策樹 101
5.5 特徵工程 103
5.6 時效性排序 104
5.6.1 時效性排序模型建構 104
5.6.2 時效性與相關性的融合 105
5.7 使用 XGBoost 進行搜尋排序範例 107
5.8 小結 108
第二部分 深度資訊檢索模型與演算法
第6章 深度召回模型 111
6.1 深度召回模型的基本架構 112
6.2 詞的編碼與向量化表示 113
6.2.1 獨熱編碼 114
6.2.2 詞哈希 115
6.2.3 詞嵌入 116
6.3 短句、句子的表示 117
6.3.1 池化 117
6.3.2 卷積神經網路 119
6.3.3 序列建模 120
6.4 案例:基於 BERT 的深度召回框架 121
6.4.1 微調資料準備與取樣策略 122
6.4.2 BERT 模型微調與訓練過程 123
6.4.3 線上召回 125
6.4.4 其他基於 BERT 改進的召回模型 126
6.5 混合召回 129
6.5.1 混合召回的工作原理 129
6.5.2 混合召回的優勢 129
6.6 小結 130
第7章 k近鄰檢索演算法 131
7.1 暴力窮舉法 132
7.2 KD 樹 132
7.2.1 KD 樹建造過程 132
7.2.2 KD 樹搜尋過程 133
7.3 局部敏感哈希 133
7.3.1 MinHash 134
7.3.2 SimHash 135
7.3.3 Banding 136
7.4 向量量化 137
7.5 HNSW 141
7.5.1 NSW 142
7.5.2 層級圖結構 144
7.6 使用 FAISS 進行 kNN 近鄰檢索範例 147
7.7 小結 149
第8章 深度相關性模型 150
8.1 基於交互矩陣的相關性模型 150
8.1.1 交互矩陣的核函數 151
8.1.2 基於交互矩陣的神經網路模型 152
8.2 基於 BERT 的相關性模型 153
8.2.1 用搜尋語料做持續預訓練 153
8.2.2 用 BERT 模型做微調 153
8.2.3 BERT 模型效果分析 155
8.3 BERT 相關性模式案例實務 156
8.3.1 BERT 模型微調範例 157
8.3.2 在線推理過程 158
8.4 小結 159
第9章 深度排序模型 160
9.1 精排模型演進 160
9.1.1 Wide & Deep 163
9.1.2 DeepFM 164
9.1.3 DIN 165
9.1.4 多目標 166
9.2 多樣性 171
9.2.1 MMR 172
9.2.2 DPP 172
9.3 資料消偏 174
位置偏差 174
9.4 小結 178
第三部分 AI搜尋前沿
第 10章 大語言模型基礎 181
10.1 大語言模型技術背景 181
10.1.1 Transformer 架構 181
10.1.2 Scaling Law 183
10.2 大語言模型訓練過程 184
10.2.1 預訓練:大語言模型訓練的關鍵步驟 184
10.2.2 監督微調:從通用到特定的任務 185
10.2.3 獎勵建模 186
10.3 提示詞工程 186
10.3.1 提示詞設計原則 186
10.3.2 少樣本提示詞 187
10.3.3 思維鏈 188
10.4 模型微調 190
10.4.1 模型微調的概念 190
10.4.2 模型微調的一般過程 191
10.5 小結 193
第 11章 AI搜尋實務 195
11.1 基於 RAG 架構的 AI 搜尋 195
11.1.1 索引建構 197
11.1.2 查詢理解 199
11.1.3 檢索 200
11.1.4 生成 202
11.2 AI 搜尋的 Agent 實作 202
11.2.1 搜尋任務規劃 203
11.2.2 搜尋任務執行 204
11.2.3 答案滿足判定 205
11.2.4 二次規劃 206
11.2.5 答案生成 207
11.3 知識蒸餾與模型微調 208
11.3.1 知識蒸餾的資料準備 209
11.3.2 模型微調 209
11.4 評估 210
11.4.1 評估標準 210
11.4.2 評估方法 211
11.5 小結 213
第 12章 生成式資訊檢索 214
12.1 可微搜尋索引 215
12.2 標識符學習方法 217
12.3 多模態生成式資訊檢索 218
12.3.1 影像的向量表徵 218
12.3.2 基於 CLIP 模型的向量檢索 220
12.3.3 影像的量化表徵 222
12.3.4 影像的量化檢索 223
12.4 小結 225
參考文獻 227