網絡爬蟲全解析——技術、原理與實踐 网络爬虫全解析:技术、原理与实践

羅剛

  • 出版商: 電子工業出版社
  • 出版日期: 2017-03-01
  • 定價: CNY $79.00
  • 售價: $474
  • 貴賓價: 9.5$450
  • 語言: 簡體中文
  • 頁數: 429
  • 裝訂: 平裝
  • ISBN: 7121310716
  • ISBN-13: 9787121310713
  • 相關標籤: 機器學習Selenium網路爬蟲

立即出貨 (庫存=1)

買這商品的人也買了...

產品描述

本書介紹瞭如何開發網絡爬蟲。

內容主要包括開發網絡爬蟲所需要的Java語法基礎和網絡爬蟲的工作原理,如何使用開源組件HttpClient和爬蟲框架Crawler4j抓取網頁信息,以及針對抓取到的文本進行有效信息的提取。

為了擴展抓取能力,本書介紹了實現分佈式網絡爬蟲的關鍵技術。

另外,本書介紹了從圖像和語音等多媒體格式文件中提取文本信息,以及如何使用大數據技術存儲抓取到的信息。

最後,以實戰為例,介紹瞭如何抓取微信和微博,以及在電商、醫藥、金融等領域的案例應用。

其中,電商領域的應用介紹了使用網絡爬蟲抓取商品信息入庫到網上商店的數據庫表。醫藥領域的案例介紹了抓取PubMed醫藥論文庫。金融領域的案例介紹了抓取股票信息,以及從年報PDF文檔中提取表格等。

本書適用於對開發信息採集軟件感興趣的自學者。也可以供有Java或程序設計基礎的開發人員參考。

目錄大綱

第1章技術基礎1 
1.1第一個程序1 
1.2準備開發環境2 
1.2.1 JDK 2 
1.2.2 Eclipse 3 
1.3類和對象4 
1.4常量5 
1.5命名規範6 
1.6基本語法6 
1.7條件判斷7 
1.8循環8 
1.9數組9 
1.10位運算11 
1.11枚舉類型13 
1.12比較器14 
1.13方法14 
1.14集合類15 
1.14.1動態數組15 
1.14.2散列表15 
1.15文件19 
1.15.1文本文件19 
1.15.2二進製文件23 
1.16多線程27 
1.16.1基本的多線程28 
1.16.2線程池30 
1.17折半查找31 
1.18處理圖片34 
1.19本章小結35 


第2章網絡爬蟲入門36 
2.1獲取信息36 
2.1.1提取鏈接37 
2.1.2採集新聞37 
2.2各種網絡爬蟲38 
2.2.1信息採集器40 
2.2.2廣度優先遍歷41 
2.2.3分佈式爬蟲42 
2.3爬蟲相關協議43 
2.3.1網站地圖44 
2.3.2 Robots協議45 
2.4爬蟲架構48 
2.4.1基本架構48 
2.4.2分佈式爬蟲架構51 
2.4.3垂直爬蟲架構54 
2.5自己寫網絡爬蟲55 
2.6 URL地址查新57 
2.6.1嵌入式數據庫58 
2.6.2布隆過濾器60 
2.6 .3實現布隆過濾器61 
2.7 部署爬蟲63 
2.7.1部署到Windows 64 
2.7.2部署到Linux 64 
2.8本章小結65 


第3章定向採集69 
3.1下載網頁的基本方法69 
3.1.1網卡70 
3.1.2下載網頁70 
3.2 HTTP基礎75 
3.2 .1協議75 
3.2.2 URI 77 
3.2.3 DNS 84 
3.3使用HttpClient下載網頁84 
3.3.1 HttpCore 94 
3.3.2狀態碼98 
3.3.3創建99 
3.3.4模擬瀏覽器99 
3.3.5重試100 
3.3 .6抓取壓縮的網頁102 
3.3.7 HttpContext 104 
3.3.8下載中文網站105 
3.3.9抓取需要登錄的網頁106 
3.3.10代理111 
3.3.11 DNS緩存112 
3.3.12並行下載113 
3.4下載網絡資源115 
3.4.1重定向115 
3.4.2解決套接字連接限制118 
3.4.3下載圖片119 
3.4.4抓取視頻122 
3.4.5抓取FTP 122 
3.4.6網頁更新122 
3.4.7抓取限制應對方法126 
3.4.8 URL地址提取131 
3.4.9解析URL地址134 
3.4.10歸一化135 
3.4.11增量採集135 
3.4.12 iframe 136 
3.4.13抓取JavaScript動態頁面137 
3.4.14抓取即時信息141 
3.4.15抓取暗網141 
3.5 PhantomJS 144 
3.6 Selenium 145 
3.7信息過濾146 
3.7. 1匹配算法147 
3.7.2分佈式過濾153 
3.8採集新聞153 
3.8.1網頁過濾器154 
3.8.2列表頁159 
3.8.3用機器學習的方法抓取新聞160 
3.8.4自動查找目錄頁161 
3.8. 5詳細頁162 
3.8.6增量採集164 
3.8.7處理圖片164 
3.9遍歷信息164 
3.10並行抓取165 
3.10.1多線程爬蟲165 
3.10.2垂直搜索的多線程爬蟲168 
3.10.3異步IO 172 
3.11分佈式爬蟲176 
3.11.1 JGroups 176 
3.11.2監控179 
3.12增量抓取180 
3.13管理界面180 
3.14本章小結181 


第4章數據存儲182 
4.1存儲提取內容182 
4.1.1 SQLite 183 
4.1.2 Access數據庫185 
4.1.3 MySQL 186 
4.1.4寫入維基187 
4.2 HBase 187 
4.3 Web圖189 
4.4本章小結193 


第5章信息提取194 
5.1從文本提取信息194 
5.2從HTML文件中提取文本195 
5.2.1字符集編碼195 
5.2.2識別網頁的編碼198 
5.2.3網頁編碼轉換為字符串編碼201 
5.2.4使用正則表達式提取數據202 
5.2.5結構化信息提取206 
5.2.6表格209 
5.2.7網頁的DOM結構210 
5.2.8使用Jsoup 取信息211 
5.2.9使用XPath提取信息217 
5.2.10 HTMLUnit提取數據219 
5.2.11網頁結構相似度計算220 
5.2.12提取標題222 
5.2.13提取日期224 
5.2.14提取模板225 
5.2.15提取RDF信息227 
5.2.16網頁解析器原理227 
5.3 RSS 229 
5.3.1 Jsoup解析RSS 230 
5.3.2 ROME 231 
5.3.3抓取流程231 
5.4網頁去噪233 
5.4.1 NekoHTML 234 
5.4.2 Jsoup 238 
5.4.3提取正文240 
5.5從非HTML文件中提取文本241 
5.5.1 PDF文件242 
5.5.2 Word文件245 
5.5.3 Rtf文件247 
5.5.4 Excel文件253 
5.5.5 PowerPoint文件254 
5.6提取標題254 
5.6.1提取標題的一般方法255 
5.6.2從PDF文件中提取標題259 
5.6.3從Word文件中提取標題261 
5.6.4從Rtf文件中提取標題261 
5.6.5從Excel文件中提取標題267 
5.6.6從PowerPoint文件中提取標題270 
5.7圖像的OCR識別270 
5.7.1讀入圖像271 
5.7.2準備訓練集272 
5.7.3圖像二值化274 
5.7.4切分圖像279 
5.7.5 SVM分類283 
5.7.6識別漢字287 
5.7.7訓練OCR 289 
5.7.8檢測行290 
5.7.9識 驗證碼291 
5.7.10 JavaOCR 292 
5.8提取地域信息292 
5.8.1 IP地址293 
5.8.2手機315 
5.9提取新聞316 
5.10流媒體內容提取317 
5.10.1音頻流內容提取317 
5.10.2視頻流內容提取321 
5.11內容糾錯322 
5.11.1模糊匹配問題325 
5.11.2英文拼寫檢查331 
5.11.3中文拼寫檢查333 
5.12術語336 
5.13本章小結336 


第6章Crawler4j 338 
6.1使用Crawler4j 338 
6.1.1大眾點評339 
6.1. 2日誌342 
6.2 crawler4j原理342 
6.2.1代碼分析343 
6.2.2使用Berkeley DB 344 
6.2.3縮短URL地址347 
6.2.4網頁編碼349 
6.2.5並發349 
6.3本章小結352 


第7章網頁排重353 
7.1語義指紋354 
7.2 SimHash 357 
7.3分佈式文檔排重367 
7.4本章小結369 


第8章網頁分類370 
8.1關鍵詞加權法371 
8.2機器學習的分類方法378 
8.2.1特徵提取380 
8.2.2樸素貝葉斯384 
8.2.3支持向量機393 
8.2.4多級分類401 
8.2.5網頁分類403 
8.3本章小結403 


第9章案例分析404 
9.1金融爬蟲404 
9.1.1中國能源政策數據404 
9.1.2 界原油現貨交易和期貨交易數據405 
9.1.3股票數據405 
9.1.4從PDF文件中提取表格408 
9.2商品搜索408 
9.2.1遍歷商品410 
9.2.2使用HttpClient 415 
9.2.3提取價格416 
9.2.4水印419 
9.2.5數據導入ECShop 420 
9.2.6採集淘寶423 
9.3自動化行業採集424 
9.4社會化信息採集424 
9.5微博爬蟲424 
9.6微信爬蟲426 
9.7海關數據426 
9.8醫藥數據427 
9.9本章小結429 


後記430