信息檢索與搜索引擎(微課版)
閆琰、班曉娟、劉煜豪
- 出版商: 清華大學
- 出版日期: 2024-04-01
- 定價: $294
- 售價: 8.5 折 $250
- 語言: 簡體中文
- 頁數: 165
- ISBN: 7302660980
- ISBN-13: 9787302660989
-
相關分類:
Text-mining
立即出貨 (庫存 < 3)
買這商品的人也買了...
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
為了讓讀者全面瞭解信息檢索和搜索引擎的基本概念、原理和實現方法,以及相關的研究和應用領域,本書詳細闡述了信息檢索中的重要問題。 全書共分為3篇,涵蓋信息檢索和搜索引擎的各個方面: 第1篇(第1~3章)為基礎篇,介紹信息檢索和搜索引擎的基本概念、原理以及信息採集、文本轉換方法;第2篇(第4~6章)為技術篇,涵蓋索引創建、用戶交互、檢索模型與搜索排序等關鍵技術;第3篇(第7章和第8章)為應用篇,討論搜索引擎評價和鏈接分析,展示搜索引擎在不同領域的應用和發展趨勢。全書提供了大量應用實例,每章後均附有習題。 通過對這些方面的講解,讀者可以瞭解信息檢索和搜索引擎的相關技術和方法,掌握它們的實現和應用,為信息處理提供更好的解決方案。
作者簡介
閆琰,中國礦業大學(北京)副教授,碩士生導師。出版專著《基於深度學習的文本表示與分類方法研究》。目前主要從事信息檢索、自然語言處理、機器學習、人工智能等領域的教學與研究工作。
目錄大綱
目錄
第1章信息檢索和搜索引擎1
1.1什麼是信息檢索1
1.1.1Web搜索1
1.1.2其他搜索應用2
1.1.3其他信息檢索應用3
1.2搜索引擎架構3
1.2.1搜索引擎3
1.2.2基本的構件4
1.3搜索引擎構件及其功能6
1.3.1文本採集6
1.3.2文本轉換8
1.3.3索引創建9
1.3.4用戶交互10
1.3.5排序11
1.3.6評價12
1.4開源的搜索引擎系統13
1.4.1Lucene13
1.4.2Solr15
1.4.3ElasticSearch15
1.5搜索引擎面對的挑戰15
小結17
習題17
第2章信息採集18
2.1網頁18
2.1.1網頁的特點19
2.1.2網頁規模的估計20
2.1.3網頁的年齡21〖3〗信息檢索與搜索引擎(微課版)目錄〖3〗2.2網頁爬蟲23
2.2.1網頁爬蟲的定義23
2.2.2網頁爬蟲的執行流程23
2.2.3設計網頁爬蟲的原則24
2.2.4網頁爬蟲的評價指標25
2.2.5爬取策略25
2.2.6深網爬取27
2.3網站地圖27
2.4非網頁類信息採集28
2.5存儲文檔29
2.5.1形成摘要29
2.5.2存儲摘要29
2.5.3文檔更新31
2.5.4網頁去重和去噪31
小結34
習題35
第3章文本轉換37
3.1文本的統計特徵37
3.1.1詞頻分佈37
3.1.2關聯網頁規模估計39
3.2停用詞去除40
3.3詞乾提取41
3.3.1基於規則的詞乾提取41
3.3.2基於詞典的詞乾提取43
3.3.3對比詞乾提取和詞形還原43
3.4詞素切分44
3.4.1基於字符串匹配的詞素切分方法44
3.4.2基於統計的詞素切分方法46
3.4.3英文詞素切分(N元串)46
3.5文本轉換的困難47
3.6文本的向量化表示48
3.6.1離散表示49
3.6.2分佈式表示49
小結50
習題50
第4章索引創建52
4.1索引相關定義52
4.1.1單詞文檔矩陣52
4.1.2單詞詞典53
4.1.3倒排索引相關概念54
4.1.4倒排索引簡單實例56
4.2索引的建立57
4.2.1兩遍文檔遍歷法57
4.2.2排序法58
4.2.3歸並法60
4.3索引更新62
4.3.1動態索引62
4.3.2倒排索引的插入62
4.3.3倒排索引的刪除66
4.4查詢處理方法67
4.4.1Documentatatime67
4.4.2Termatatime69
4.4.3查詢優化70
小結72
習題72
第5章用戶交互75
5.1信息需求與查詢75
5.2查詢轉換與提煉77
5.2.1停用詞去除和詞乾提取77
5.2.2拼寫檢查78
5.3查詢擴展81
5.3.1基於全局分析的查詢擴展81
5.3.2基於相關反饋和偽相關反饋的查詢擴展82
5.3.3基於查詢日誌的查詢擴展84
5.4上下文和個性化85
5.5查詢推薦86
5.5.1基於文檔的方法87
5.5.2基於查詢日誌的方法89
5.6搜索結果顯示92
小結94
習題94
第6章檢索模型與搜索排序96
6.1檢索模型概述96
6.1.1布爾模型97
6.1.2向量空間模型99
6.1.3BOW模型103
6.1.4Latent Dirichlet Allocation105
6.1.5隱性語義分析106
6.2概率模型108
6.2.1概率檢索模型108
6.2.2二元獨立模型109
6.2.3BM25模型111
6.3語言模型112
6.3.1OneHot和Word2Vec113
6.3.2CBOW模型113
6.3.3Skipgram模型114
6.4排序模型116
6.4.1KL散度116
6.4.2Learning to Rank算法118
6.5基於機器學習的排序方法120
小結123
習題124
第7章搜索引擎評價126
7.1搜索引擎評價的意義126
7.2搜索引擎評價體系127
7.3效果評價130
7.3.1召回率、精確率、ROC曲線130
7.3.2平均精確率133
7.3.3關註排序靠前的文檔134
7.3.4使用用戶偏好136
7.4效率評價137
7.5訓練、測試和統計138
7.5.1比較評價138
7.5.2顯著性檢驗139
7.5.3最小化判定工作142
7.5.4設置參數值143
小結144
習題144
第8章鏈接分析146
8.1PageRank算法146
8.1.1什麼是PageRank146
8.1.2PageRank的工作原理147
8.1.3PageRank計算148
8.1.4PageRank應用與分析149
8.2HITS算法150
8.2.1什麼是HITS150
8.2.2HITS工作原理151
8.2.3HITS算法存在的問題152
8.2.4HITS與PageRank比較153
8.2.5其他改進算法154
8.3網頁作弊技術155
8.3.1基於內容的作弊技術156
8.3.2基於鏈接關系的作弊技術157
8.3.3掩蓋技術和重定向技術159
8.4網頁反作弊技術160
8.4.1特定類別的作弊頁面識別技術161
8.4.2非特定類別的作弊頁面識別技術164
小結164
習題165
參考文獻166



