解密搜尋引擎技術實戰 - Lucene & Java『精華第三版』 解密搜索引擎技术实战:Lucene&Java精华版(第3版)
羅剛, 等
- 出版商: 電子工業
- 出版日期: 2016-03-01
- 定價: $474
- 售價: 7.9 折 $374
- 語言: 簡體中文
- 頁數: 511
- 裝訂: 平裝
- ISBN: 7121281112
- ISBN-13: 9787121281112
-
相關分類:
Web-crawler 網路爬蟲、Java 程式語言
立即出貨
買這商品的人也買了...
-
Computer Networks, 5/e (IE-Paperback)$1,300$1,274 -
CUDA 並行程序設計 : GPU 編程指南 (CUDA Programming: A Developer's Guide to Parallel Computing with GPUs)$894$849 -
Visual C# 2015 入門與應用$560$476 -
$234自製搜尋引擎 -
$422JavaEE 開發的顛覆者: Spring Boot實戰 -
$474Java 8 實戰 (Java 8 In Action) -
$330區塊鏈 2.0 -
王者歸來 : 自己動手寫網路爬蟲, 2/e$580$493 -
$474自然語言處理 : 原理與技術實現 -
建構微服務|設計細微化的系統 (Building Microservices)$580$458 -
Kubernetes 使用指南$490$387 -
$594Vue.js 權威指南 -
Effective Debugging 中文版 | 軟體與系統除錯的 66 個具體作法 (Effective Debugging: 66 Specific Ways to Debug Software and Systems) (書況略舊,不介意在下單)$450$383 -
React 啟動與運行 (React: Up & Running: Building Web Applications)$580$458 -
深度學習快速入門 — 使用 TensorFlow (Getting started with TensorFlow)
$360$281 -
$474網絡爬蟲全解析——技術、原理與實踐 -
$796深度學習 -
第一次用 Docker 就上手$420$357 -
$564Java EE因特網輕量級框架整合開發:SSM框架(Spring MVC+Spring+MyBatis)和Redis實現 -
資安風險評估指南 (Network Security Assessment, 3/e)$780$616 -
$594相關性搜索 : 利用 Solr 與 Elasticsearch 創建智能應用 (Relevant search: with applications for Solr and elasticsearch) -
Ansible 徹底入門|雲端時代的組態管理$480$408 -
$301自己動手寫分佈式搜索引擎 -
$474從 Lucene 到 Elasticsearch : 全文檢索實戰 -
CQRS 命令查詢職責分離模式 (Command Query Responsibility Segregation)$500$390
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
<內容介紹>
羅剛等編著的《解密搜索引擎技術實戰(附光盤Lucene & Java精華版第3版全新升級)》是獵兔搜索開發團隊的軟件研發和教學實踐的經驗匯總。本書總結搜索引擎相關理論與實際解決方案,並給出了Java實現,其中利用了流行的開源項目Lucene和Solr,而且還包括原創的實現。
本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬蟲部分介紹了網頁遍歷方法和如何實現增量抓取,並介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發,包括了中文分詞與詞性標註的理論與實現及在搜索引擎中的應用等細節,同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹,並總結了實現方法。在全文檢索部分,結合Lucene介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應用方法,包括完整的搜索實現過程:從完成索引到搜索用戶界面的實現。此外還進一步介紹了實現準實時搜索的方法,展示了Solr的用法以及實現分佈式搜索服務集群的方法。最後介紹了在地理信息系統領域和戶外活動搜索領域的應用。
<章節目錄>
第1章 搜索引擎總體結構
1.1 搜索引擎基本模塊
1.2 開發環境
1.3 搜索引擎工作原理
1.3.1 網絡爬蟲
1.3.2 全文索引結構與Lucene實現
1.3.3 搜索用戶界面
1.3.4 計算框架
1.3.5 文本挖掘
1.4 本章小結
第2章 網絡爬蟲的原理與應用
2.1 爬蟲的基本原理
2.2 爬蟲架構
2.2.1 基本架構
2.2.2 分佈式爬蟲架構
2.2.3 垂直爬蟲架構
2.3 抓取網頁
2.3.1 下載網頁的基本方法
2.3.2 網頁更新
2.3.3 抓取限制應對方法
2.3.4 URL地址提取
2.3.5 抓取JavaScript動態頁面
2.3.6 抓取即時信息
2.3.7 抓取暗網
2.3.8 信息過濾
2.3.9 最好優先遍歷
2.4 存儲URL地址
2.4.1 BerkeleyDB
2.4.2 布隆過濾器
2.5 並行抓取
2.5.1 多線程爬蟲
2.5.2 垂直搜索的多線程爬蟲
2.5.3 異步I/O
2.6 RSS抓取
2.7 抓取FTP
2.8 下載圖片
2.9 圖像的OCR識別
2.9.1 圖像二值化
2.9.2 切分圖像
2.9.3 SVM分類
2.10 Web結構挖掘
2.10.1 存儲Web圖
2.10.2 PageRank演算法
2.10.3 HITs演算法
2.10.4 主題相關的PageRank
2.11 部署爬蟲
2.12 本章小結
第3章 索引內容提取
3.1 從HTML文件中提取文本
3.1.1 識別網頁的編碼
3.1.2 網頁編碼轉換為字符串編碼
3.1.3 使用正則表達式提取數據
3.1.4 結構化信息提取
3.1.5 網頁的DOM結構
3.1.6 使用NekoHTML提取信息
3.1.7 使用Jsoup提取信息
3.1.8 網頁去噪
3.1.9 網頁結構相似度計算
3.1.10 提取標題
3.1.11 提取日期
3.2 從非HTML文件中提取文本
3.2.1 提取標題的一般方法
3.2.2 PDF文件
3.2.3 Word文件
3.2.4 Rtf文件
3.2.5 Excel文件
3.2.6 PowerPoint文件
3.3 流媒體內容提取
3.3.1 音頻流內容提取
3.3.2 視頻流內容提取
3.4 存儲提取內容
3.5 本章小結
第4章 中文分詞的原理與實現
4.1 Lucene中的中文分詞
4.1.1 Lucene切分原理
4.1.2 Lucene中的Analyzer
4.1.3 自己寫Analyzer
4.1.4 Lietu中文分詞
4.2 查找詞典演算法
4.2.1 標準Trie樹
4.2.2 三叉Trie樹
4.3 中文分詞的原理
4.4 中文分詞流程與結構
4.5 形成切分詞圖
4.6 概率語言模型的分詞方法
4.7 N元分詞方法
4.8 新詞發現
4.9 未登錄詞識別
4.10 詞性標註
4.10.1 隱馬爾可夫模型
4.10.2 基於轉換的錯誤學習方法
4.11 平滑演算法
4.12 本章小結
第5章 讓搜索引擎理解自然語言
5.1 停用詞表
5.2 句法分析樹
5.3 相似度計算
5.4 文檔排重
5.4.1 語義指紋
5.4.2 SimHash
5.4.3 分佈式文檔排重
5.5 中文關鍵詞提取
5.5.1 關鍵詞提取的基本方法
5.5.2 HITS演算法應用於關鍵詞提取
5.5.3 從網頁中提取關鍵詞
5.6 相關搜索詞
5.6.1 挖掘相關搜索詞
5.6.2 使用多線程計算相關搜索詞
5.7 信息提取
5.8 拼寫檢查與建議
5.8.1 模糊匹配問題
5.8.2 英文拼寫檢查
5.8.3 中文拼寫檢查
5.9 自動摘要
5.9.1 自動摘要技術
5.9.2 自動摘要的設計
5.9.3 Lucene中的動態摘要
5.10 文本分類
5.10.1 特徵提取
5.10.2 中心向量法
5.10.3 樸素貝葉斯
5.10.4 支持向量機
5.10.5 規則方法
5.10.6 網頁分類
5.11 拼音轉換
5.12 概念搜索
5.13 多語言搜索
5.14 跨語言搜索
5.15 情感識別
5.15.1 確定詞語的褒貶傾向
5.15.2 實現情感識別
5.16 本章小結
第6章 Lucene原理與應用
6.1 Lucene深入介紹
6.1.1 常用查詢對象
6.1.2 查詢語法與解析
6.1.3 查詢原理
6.1.4 分析文本
6.1.5 使用Filter篩選搜索結果
6.1.6 遍歷索引庫
6.1.7 索引數值列
6.2 Lucene中的壓縮演算法
6.2.1 變長壓縮
6.2.2 PForDelta
6.2.3 前綴壓縮
6.2.4 差分編碼
6.3 創建和維護索引庫
6.3.1 創建索引庫
6.3.2 向索引庫中添加索引文檔
6.3.3 刪除索引庫中的索引文檔
6.3.4 更新索引庫中的索引文檔
6.3.5 索引的合併
6.3.6 索引文件格式
6.4 查找索引庫
6.4.1 查詢過程
6.4.2 常用查詢
6.4.3 基本詞查詢
6.4.4 模糊匹配
6.4.5 布爾查詢
6.4.6 短語查詢
6.4.7 跨度查詢
6.4.8 FieldScoreQuery
6.5 讀寫併發控制
6.6 檢索模型
6.6.1 向量空間模型
6.6.2 BM25概率模型
6.6.3 統計語言模型
6.7 本章小結
第7章 搜索引擎用戶界面
7.1 實現Lucene搜索
7.2 實現搜索接口
7.2.1 編碼識別
7.2.2 布爾搜索
7.2.3 指定範圍搜索
7.2.4 搜索結果排序
7.2.5 搜索頁面的索引緩存與更新
7.3 歷史搜索詞記錄
7.4 實現關鍵詞高亮顯示
7.5 實現分類統計視圖
7.6 實現Ajax搜索聯想詞
7.6.1 估計查詢詞的文檔頻率
7.6.2 搜索聯想詞總體結構
7.6.3 服務器端處理
7.6.4 瀏覽器端處理
7.6.5 服務器端改進
7.6.6 拼音提示
7.6.7 部署總結
7.7 集成其他功能
7.7.1 拼寫檢查
7.7.2 分類統計
7.7.3 相關搜索
7.7.4 再次查找
7.7.5 搜索日誌
7.8 搜索日誌分析
7.8.1 日誌信息過濾
7.8.2 信息統計
7.8.3 挖掘日誌信息
7.9 本章小結
第8章 使用Solr實現企業搜索
8.1 Solr簡介
8.2 Solr基本用法
8.2.1 Solr服務器端的配置與中文支持
8.2.2 把數據放進Solr
8.2.3 刪除數據
8.2.4 Solr客戶端與搜索界面
8.2.5 Spring實現的搜索界面
8.2.6 Solr索引庫的查找
8.2.7 索引分發
8.2.8 Solr搜索優化
8.3 Solr擴展與定製
8.3.1 Solr中字詞混合索引
8.3.2 相關檢索
8.3.3 搜索結果去重
8.3.4 定製輸入輸出
8.3.5 分佈式搜索
8.3.6 SolrJ查詢分析器
8.3.7 擴展SolrJ
8.3.8 擴展Solr
8.3.9 查詢Web圖
8.4 本章小結
第9章 地理信息系統案例分析
9.1 新聞提取
9.2 POI信息提取
9.2.1 提取主體
9.2.2 提取地區
9.2.3 指代消解
9.3 機器翻譯
9.3.1 詞對齊
9.3.2 翻譯公司名
9.3.3 調整語序
9.4 本章小結
第10章 戶外活動搜索案例分析
10.1 爬蟲
10.2 信息提取
10.3 活動分類
10.4 搜索
10.5 本章小結
參考資料
