智能信息檢索理論與方法

  • 出版商: 清華大學
  • 出版日期: 2026-06-01
  • 售價: $354
  • 語言: 簡體中文
  • ISBN: 7302716862
  • ISBN-13: 9787302716860
  • 相關分類: Natural Language Processing
  • 下單後立即進貨 (約4週~6週)

  • 智能信息檢索理論與方法-preview-1
  • 智能信息檢索理論與方法-preview-2
  • 智能信息檢索理論與方法-preview-3
智能信息檢索理論與方法-preview-1

商品描述

"本書系統闡述了信息檢索的核心理論與前沿技術。全書以信息檢索的基本任務為主線,從經典的布爾檢索、向量空間模型出發,逐步深入基於嵌入表示的現代檢索方法,並結合哈希檢索、索引構建、查詢理解、檢索評價等關鍵技術,建立起完整的信息檢索知識體系。   本書內容系統全面,既涵蓋倒排索引、tf-idf、BM25、PageRank等經典算法,也融入了詞嵌入、Transformer網絡架構、跨模態檢索、近似近鄰檢索(ANN)、檢索增強生成(RAG)等人工智能時代的新方法與技術。同時,本書註重探討各類方法的核心思想與實現邏輯,以幫助讀者理解檢索系統構建的基礎理論。   本書適合計算機科學、信息資源管理等相關專業的高年級本科生及研究生閱讀,也可供搜索引擎、推薦系統、自然語言處理等領域的算法工程師參考。通過對本書的學習,讀者不僅能掌握信息檢索的基礎理論與典型方法,還能把握該領域的發展脈絡與整體趨勢,形成構建高效、智能檢索系統的專業能力。 "

目錄大綱

目錄

第1 章引論

1.1 信息檢索的定義............................................................................ 1

1.2 信息檢索的起源與發展................................................................... 2

1.2.1 信息檢索的起源.................................................................. 2

1.2.2 信息檢索的發展歷史............................................................ 3

1.3 信息檢索的兩個任務...................................................................... 4

1.3.1 信息的序化組織.................................................................. 4

1.3.2 信息的檢索利用.................................................................. 10

1.4 現代信息檢索的主要內容................................................................ 13

1.4.1 研究對象........................................................................... 13

1.4.2 任務目標........................................................................... 14

1.4.3 工作流程........................................................................... 14

1.4.4 設計難點........................................................................... 15

1.5 讀者指南.................................................................................... 16

思考與練習......................................................................................... 17

第2 章二值向量表示與布爾檢索

2.1 從詞項-文檔關聯矩陣到倒排索引...................................................... 18

2.1.1 詞項-文檔關聯矩陣.............................................................. 18

2.1.2 倒排索引:詞項-文檔關聯矩陣的精簡表示................................. 20

2.2 詞典組織............................................................................... 21

2.2.1 排序數組........................................................................... 22

2.2.2 哈希加鏈表........................................................................ 22

2.2.3 樹狀組織方式..................................................................... 23

2.3 常規布爾檢索及其優化................................................................... 25

2.3.1 布爾檢索的常規方法............................................................ 25

2.3.2 布爾檢索的速度優化............................................................ 28

2.4 高級布爾檢索........................................................................... 29

2.4.1 短語檢索........................................................................... 29

2.4.2 通配檢索........................................................................... 32

2.5 索引處理流程.......................................................................... 34

2.5.1 從待索引對象到倒排索引的整體流程........................................ 34

2.5.2 文件解析——獲取待索引的文本.............................................. 35

2.5.3 詞符切分——將文本切分為詞符序列........................................ 36

2.5.4 語言分析——將詞符規範化為詞項........................................... 37

2.6 布爾檢索模型及其特點................................................................... 39

思考與練習................................................................................ 39

第3 章加權向量表示與排序式檢索

3.1 向量空間模型.......................................................................... 40

3.1.1 文檔的加權向量表示............................................................ 41

3.1.2 權重計算:詞頻與逆文檔頻率................................................. 41

3.1.3 相似度計算........................................................................ 43

3.2 概率檢索模型......................................................................... 45

3.2.1 概率檢索模型的基本假設....................................................... 45

3.2.2 二值獨立模型..................................................................... 46

3.2.3 BM25 模型......................................................................... 50

3.3 基於統計語言模型的檢索模型.......................................................... 52

3.3.1 統計語言模型..................................................................... 52

3.3.2 查詢似然模型..................................................................... 53

3.4 查詢處理中的索引遍歷................................................................... 54

3.4.1 一次一詞項方式.................................................................. 55

3.4.2 一次一文檔方式.................................................................. 55

3.5 快速評分計算與排序...................................................................... 56

3.5.1 精確Top K 評分計算與排序................................................... 56

3.5.2 非精確Top K 評分計算與排序................................................ 58

思考與練習................................................................................ 61

第4 章嵌入表示與向量檢索

4.1 詞嵌入....................................................................... 62

4.1.1 整數索引、獨熱編碼與詞嵌入表示........................................... 62

4.1.2 靜態詞嵌入........................................................................ 64

4.1.3 動態詞嵌入........................................................................ 71

4.2 文本嵌入表示............................................................. 73

4.2.1 Doc2Vec ............................................................................ 74

4.2.2 基於Transformer 網絡架構的文本嵌入...................................... 74

4.3 圖像嵌入與基於內容的圖像檢索....................................................... 81

4.4 多模態嵌入與跨模態檢索................................................................ 84

4.5 向量近似近鄰檢索............................................................. 86

4.5.1 基於樹的ANN 檢索.............................................................. 86

4.5.2 基於哈希的ANN 檢索........................................................... 91

4.5.3 基於量化的ANN 檢索........................................................... 91

4.5.4 基於圖的ANN 檢索.............................................................. 97

4.5.5 ANN 檢索工具包................................................................. 99

思考與練習...................................................................... 100

第5 章基於哈希的相似項檢索

5.1 大規模相似項檢索的目標................................................................ 101

5.2 最小哈希(MinHash) ................................................................... 103

5.2.1 文檔的k-shingle 表示............................................................ 103

5.2.2 最小哈希與Jaccard 相似度..................................................... 104

5.2.3 最小哈希簽名向量的相似度計算.............................................. 106

5.2.4 大規模簽名向量的快速比對.................................................... 108

5.3 相似哈希(SimHash) ................................................................... 111

5.3.1 相似哈希的指紋計算............................................................ 111

5.3.2 相似哈希指紋的快速比對....................................................... 112

5.4 局部敏感哈希(LSH) ................................................................... 114

5.4.1 LSH 的基本思想.................................................................. 114

5.4.2 LSH 的碰撞概率與距離測度................................................... 115

5.4.3 常見LSH 函數族.................................................................. 116

5.4.4 LSH 的索引與查找............................................................... 121

5.5 相似項檢索算法的對比................................................................... 122

思考與練習........................................................................ 123

第6 章索引構建與壓縮

6.1 索引構建..................................................................... 124

6.1.1 單機索引........................................................................... 124

6.1.2 分布式索引........................................................................ 128

6.1.3 動態索引........................................................................... 131

6.2 索引壓縮.................................................................. 132

6.2.1 索引壓縮的目的與詞項統計特性.............................................. 132

6.2.2 詞典壓縮........................................................................... 134

6.2.3 倒排記錄表壓縮.................................................................. 136

思考與練習.......................................................................... 142

第7 章查詢理解

7.1 查詢理解的主要任務....................................................... 144

7.2 查詢標記與查詢意圖分類:分析用戶信息需求...................................... 146

7.2.1 用戶檢索行為..................................................................... 146

7.2.2 查詢標記........................................................................... 146

7.2.3 查詢意圖分類..................................................................... 148

7.3 查詢優化:變換查詢以產生更好的結果.............................................. 149

7.3.1 相關反饋........................................................................... 150

7.3.2 查詢改寫........................................................................... 153

7.4 查詢推薦:輔助用戶查詢................................................................ 156

7.4.1 查詢自動補全..................................................................... 156

7.4.2 相關搜索........................................................................... 157

思考與練習........................................................................ 160

第8 章檢索評價

8.1 無序結果集評價........................................................ 161

8.1.1 查準率和查全率.................................................................. 162

8.1.2 精度指標........................................................................... 163

8.1.3 大數據集下的查全率計算....................................................... 163

8.1.4 F 值——查準率和查全率的指標融合........................................ 164

8.2 有序結果集評價.......................................................... 164

8.2.1 PR 曲線與PR-AUC ............................................................. 165

8.2.2 ROC 曲線與ROC-AUC ......................................................... 166

8.2.3 P@K ............................................................................... 167

8.2.4 R查準率........................................................................... 168

8.2.5 平均查準率(AP) .............................................................. 168

8.2.6 倒數排序(RR) ................................................................. 169

8.2.7 nDCG 評價指標.................................................................. 169

8.2.8 bpref ............................................................. 173

8.3 多個查詢的綜合評價..................................................... 174

8.3.1 宏平均與微平均.................................................................. 174

8.3.2 平均查準率均值(MAP) ...................................................... 175

8.3.3 幾何平均查準率均值(GMAP) ............................................. 175

8.3.4 平均倒數排序(MRR) ........................................................ 176

思考與練習..................................................................... 176

第9 章Web 搜索引擎與檢索增強生成

9.1 Web 與搜索引擎基礎..................................................................... 178

9.1.1 Web 交互過程..................................................................... 178

9.1.2 Web 核心概念..................................................................... 179

9.1.3 Web 搜索引擎的發展歷史...................................................... 180

9.1.4 搜索引擎的技術架構............................................................ 182

9.2 Web 采集............................................................. 183

9.2.1 單網頁采集方法.................................................................. 183

9.2.2 分布式爬蟲采集.................................................................. 186

9.2.3 動態網頁與深網采集............................................................ 187

9.2.4 爬蟲禮儀........................................................................... 188

9.3 鏈接分析............................................................. 189

9.3.1 超鏈接錨文本加權............................................................... 190

9.3.2 基於PageRank 的網頁重要性分析............................................ 190

9.3.3 基於HITS 的網頁權威性分析.................................................. 194

9.3.4 SALSA 算法....................................................................... 197

9.3.5 Hilltop 算法........................................................................ 200

9.4 排序學習................................................................ 202

9.5 檢索增強生成:搜索引擎與大語言模型的結合...................................... 203

9.5.1 RAG 核心模塊.................................................................... 204

9.5.2 RAG 系統的演進................................................................. 205

9.5.3 信息檢索對大語言模型的增強作用........................................... 206

思考與練習.......................................................................... 207

參考文獻