開發專屬個人的搜尋引擎:使用 Lucene & Heritrix, 2/e

邱哲、符滔滔、王學松 著、胡嘉璽 譯

無法訂購

買這商品的人也買了...

相關主題

商品描述

<內容簡介>

本書透過LuceneHeritrix,講解目前搜尋引擎的構建方式,透過對應用程式介面和原始碼的分析,讓讀者了解搜尋引擎背後的架構過程,並且深入搜尋引擎的核心,認識搜尋引擎的高價值和實用性,進而開發出類似的搜尋引擎網站,提高自己的企業價值。

<本書特色>

結合理論與實務運用,除了介紹搜尋引擎系統外,也詳細說明開發過程。
提供完整實例,讀者可以依據自己的專案需求,稍微修改相關的內容,就可以應用在自己研發的實際項目當中。

針對開發時常遇到的問題進行深入探討,有效解決讀者困擾。

<章節目錄>

Ch01 搜尋引擎與資訊檢索
1.1
搜尋引擎的歷史
1.2
資訊檢索系統的基本知識
1.3 Lucene
的簡介

1.4
小結

Ch02
 Lucene入門實例
2.1
實例介紹
2.2
準備工作
2.3
建立Eclipse專案
2.4
執行效果
2.5
小結

Ch03
 索引的建立
3.1 Document
邏輯檔案
3.2 Field
的內部實現

3.3 Lucene
的索引工具IndexWriter
3.4 Lucene
索引過程詳解

3.5
索引檔案格式
3.6
索引過程的最佳化
3.7
索引的合併與索引的最佳化

3.8
從索引中刪除檔案
3.9 Lucene
的同步問題
3.10 Lucene 2.0
的新類別:IndexModifier類別
3.11
小結

Ch04
 Lucene搜尋
4.1
使用IndexSearcher進行搜尋
4.2 Hits
類別詳解
4.3
對搜尋結果的評分
4.4
建構各種Lucene內建的Query物件
4.5
協力廠商提供的Query 物件:RegexQuery
4.6
透過QueryParser轉換使用者關鍵字

4.7
Field 搜尋與多索引搜尋
4.8
小結

Ch05
 排序、過濾和分頁
5.1
相關度排序
5.2
使用Sort來排序
5.3
搜尋的篩檢程式
5.4
翻頁問題
5.5
小結

Ch06
 Lucene的分析器
6.1
分析
6.2 Lucene
JavaCC
6.3
分析器的進階

6.4
對中文的分析
6.5
小結

Ch07
 WordExcelPDF的處理
7.1
使用PDFBox處理PDF文件
7.2
使用xpdf來處理中文PDF文件
7.3
使用POI來處理Excel Word檔案格式
7.4
使用Jacob來處理Word文件
7.5
小結

Ch08
 Compass:封裝了Lucene的框架
8.1 Compass
簡介
8.2 Compass
的初始設定
8.3
域模型的設定
8.4
使用Compass來建立索引
8.5
使用Compass來搜尋
8.6
設定AnalyzerOptimizer
8.7
小結


Ch09
 Lucene分散式
9.1 Lucene
與分散式
9.2
小結

Ch10
 無比強大的網路爬蟲Heritrix
10.1 Heritrix
的使用入門

10.2 Heritrix
的架構
10.3
擴充和訂製Heritrix
10.4
小結


Ch11
 搜尋引擎綜合實例:準備篇
11.1
數位產品垂直搜尋引擎實例簡介
11.2
準備EclipseWeb開發環境
11.3
準備垂直搜尋引擎專案
11.4
搜尋引擎設定資訊管理及相關類
11.5
小結

Ch12
 搜尋引擎綜合實例:下載篇
12.1
數位產品網路爬蟲
12.2
數位產品資訊來源清單準備
12.3 Eclipse
中訂製數位產品Heritrix爬蟲
12.4
抓取pconline網頁的訂製擴充類
12.5
抓取網易手機頻道的訂製擴充類別
12.6
小結

Ch13
 使用正則運算式與HTMLParser分析網頁
13.1
網頁內容分析方法概述
13.2
正則運算式精確分析網頁內容
13.3 HTMLParser
高效分析網頁內容
13.4
數位產品網頁內容解析系統
13.5 pconline
手機產品網頁內容解析
13.6
網易手機頻道產品內容解析

13.7
小結

Ch14
 網頁內容儲存與索引
14.1
建構產品檢索名稱資訊詞庫
14.2
手機產品資料庫與檔案索引結構

14.3
產品資訊資料庫儲存與處理
14.4
產品資訊檔案儲存與Lucene 索引
14.5
產品資訊綜合處理與執行
14.6
小結

Ch15
 搜尋引擎綜合實例:互動篇
15.1 DWR
的技術介紹
15.2 DWR
安裝與設定
15.3 DWR
入門與實例示範
15.4 dwr.xm
的設定進階
15.5
使用DWR工具庫util.js
15.6
小結


Ch16
 搜尋引擎綜合實例:Web
16.1 Web
設定檔
16.2
各種搜尋相關Bean類別
16.3
資料庫存取SearchResultDAO類別實現
16.4 Lucene
索引檢索SearchService類別實現
16.5
前景Web頁面設計
16.6
實例中的問題與功能擴充
16.7
小結

附錄ChA Lucene 2.4更新內容
A.1 IndexWriter
的建構函數
A.2 IndexWriter
init 方法
A.3 IndexWriter
中的flushcommit close
A.4 Lucene 2.4
中的
Segment
A.5 IndexCommit
IndexDeletionPolicy
A.6 IndexWriter
中的
addDocument
A.7 DocumentsWriter
類別的addDocument方法

A.8 DocumentsWriter
的索引鏈

<光碟內容>

本書搭配章節的範例檔