用 Python 寫網絡爬蟲 (Web Scraping with Python) 用Python写网络爬虫

[澳]理乍得 勞森

  • 出版商: 人民郵電出版社
  • 出版日期: 2016-08-01
  • 定價: CNY $45.00
  • 售價: $270
  • 貴賓價: 9.5$257
  • 語言: 簡體中文
  • 頁數: 157
  • 裝訂: 平裝
  • ISBN: 7115431795
  • ISBN-13: 9787115431790
  • 相關標籤: Python網路爬蟲
  • 相關原文書: Web Scraping with Python

立即出貨

買這商品的人也買了...

產品描述

<內容介紹>

《用Python寫網絡爬蟲》講解瞭如何使用Python來編寫網絡爬蟲程序,內容包括網絡爬蟲簡介,從頁面中抓取數據的三種方法,提取緩存中的數據,使用多個線程和進程來進行並發抓取,如何抓取動態頁面中的內容,與表單進行交互,處理頁面中的驗證碼問題,以及使用Scarpy和Portia來進行數據抓取,使用本書介紹的數據抓取技術對幾個真實的網站進行了抓取,旨在幫助讀者活學活用書中介紹的技術。
《用Python寫網絡爬蟲》適合有一定Python編程經驗,而且對爬蟲技術感興趣的讀者閱讀。

<章節目錄>

第1章網絡爬蟲簡介1
1.1網絡爬蟲何時有用1
1.2網絡爬蟲是否合法2
1.3背景調研3
1.3.1檢查robots.txt 3
1.3.2檢查網站地圖4
1.3.3估算網站大小5
1.3.4識別網站所用技術7
1.3.5尋找網站所有者7
1.4編寫第一個網絡爬蟲8
1.4.1下載網頁9
1.4.2網站地圖爬蟲12
1.4.3 ID遍歷爬蟲13
1.4.4鏈接爬蟲15
1.5本章小結22

第2章數據抓取23
2.1分析網頁23
2.2三種網頁抓取方法26
2.2.1正則表達式26
2.2.2 Beautiful Soup 28
2.2.3 Lxml 30
2.2.4性能對比32
2.2.5結論35
2.2 .6為鏈接爬蟲添加抓取回調35
2.3本章小結38

第3章下載緩存39
3.1為鏈接爬蟲添加緩存支持39
3.2磁盤緩存42
3.2.1實現44
3.2.2緩存測試46
3.2.3節省磁盤空間46
3.2.4清理過期數據47
3.2.5缺點48
3.3數據庫緩存49
3.3.1 NoSQL是什麼50
3.3.2安裝MongoDB 50
3.3.3 MongoDB概述50
3.3.4 MongoDB緩存實現52
3.3.5壓縮54
3.3.6緩存測試54
3.4本章小結55

第4章並發下載57
4.1 100萬個網頁57
4.2串行 ​​爬蟲60
4.3多線程爬蟲60
4.3.1線程和進程如何工作61
4.3.2實現61
4.3.3多進程爬蟲63
4.4性能67
4.5本章小結68

第5章動態內容69
5.1動態網頁示例69
5.2對動態網頁進行逆向工程72
5.3渲染動態網頁77
5.3.1 PyQt還是PySide 78
5.3.2執 ​​行JavaScript 78
5.3.3使用WebKit與網站交互80
5.3.4 Selenium 85
5.4本章小結88

第6章表單交互89
6.1登錄表單90
6.2支持內容更新的登錄腳本擴展97
6.3使用Mechanize模塊實現自動化表單處理100
6.4本章小結102

第7章驗證碼處理103
7.1註冊賬號103
7.2光學字符識別106
7.3處理複雜驗證碼111
7.3.1使用驗證碼處理服務112
7.3.2 9kw入門112
7.3.3與註冊功能集成119
7.4本章小結120

第8章Scrapy 121
8.1安裝121
8.2啟動項目122
8.2.1定義模型123
8.2.2創建爬蟲124
8.2.3使用shell命令抓取128
8.2.4檢查結果129
8.2.5中斷與恢復爬蟲132
8.3使用Portia編寫可視化爬蟲133
8.3.1安裝133
8.3.2標註136
8.3.3優化爬蟲138
8.3.4檢查結果140
8.4使用Scrapely實現自動化抓取141
8.5本章小結142

第9章總結143
9.1 Google搜索引擎143
9.2 Facebook 148
9.2.1網站148
9.2 .2 API 150
9.3 Gap 151
9.4寶馬153
9.5本章小結157