精通 Python 網絡爬蟲:核心技術、框架與項目實戰 精通Python网络爬虫:核心技术、框架与项目实战

韋瑋

  • 出版商: 機械工業
  • 出版日期: 2017-03-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • 頁數: 294
  • 裝訂: 平裝
  • ISBN: 7111562089
  • ISBN-13: 9787111562085
  • 相關分類: Web-crawler 網路爬蟲Python
  • 銷售排行: 🥉 2017/6 簡體中文書 銷售排行 第 3 名

    下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

從技術、工具與實戰3個維度講解了Python網絡爬蟲:

技術維度:詳細講解了Python網絡爬蟲實現的核心技術,包括網絡爬蟲的工作原理、如何用urllib庫編寫網絡爬蟲、爬蟲的異常處理、正則表達式、爬蟲中Cookie的使用、爬蟲的瀏覽器偽裝技術、定向爬取技術、反爬蟲技術,以及如何自己動手編寫網絡爬蟲。

工具維度:以流行的Python網絡爬蟲框架Scrapy為對象,詳細講解了Scrapy的功能使用、高級技巧、架構設計、實現原理,以及如何通過Scrapy來更便捷、高效地編寫網絡爬蟲。

實戰維度:以實戰為導向,是本書的主旨,除了完全通過手動編程實現網絡爬蟲和通過Scrapy框架實現網絡爬蟲的實戰案例以外,本書還有博客爬取、圖片爬取、模擬登錄等多個綜合性的網絡爬蟲實踐案例。

作者在Python領域有非常深厚的積累,不僅精通Python網絡爬蟲,在Python機器學習、Python數據分析與挖掘、Python Web開發等多個領域都有豐富的實戰經驗

目錄大綱

前言

第一篇 理論基礎篇

第1章 什麼是網絡爬蟲3 
1.1初識網絡爬蟲3 
1.2為什麼要學網絡爬蟲4 
1.3網絡爬蟲的組成5 
1.4網絡爬蟲的類型6 
1.5爬蟲擴展——聚焦爬蟲7 
1.6小結8 

第2章 網絡爬蟲技能總覽9 
2.1網絡爬蟲技能總覽圖9 
2.2搜索引擎核心10 
2.3用戶爬蟲的那些事兒11 
2.4小結12 

第二篇 核心技術篇

第3章 網絡爬蟲實現原理與實現技術15 
3.1網絡爬蟲實現原理詳解15 
3.2爬行策略17 
3.3網頁更新策略18 
3.4網頁分析算法20 
3.5身份識別21 
3.6網絡爬蟲實現技術21 
3.7實例——metaseeker 22 
3.8小結27 

第4章 Urllib庫與URLError異常處理29 
4.1什麼是Urllib庫29 
4.2快速使用Urllib爬取網頁30 
4.3瀏覽器的模擬——Headers屬性34 
4.4超時設置37 
4.5 HTTP協議請求實戰39 
4.6代理服務器的設置44 
4.7 DebugLog實戰45 
4.8異常處理神器— —URLError實戰46 
4.9小結51 

第5章 正則表達式與Cookie的使用52 
5.1 麼是正則表達式52 
5.2正則表達式基礎知識52 
5.3正則表達式常見函數61 
5.4常見實例解析64 
5.5什麼是Cookie 66 
5.6 Cookiejar實戰精析66 
5.7小結71 

第6章 手寫Python爬蟲73 
6.1圖片爬蟲實戰73 
6.2鏈接爬蟲實戰78 
6.3糗事百科爬蟲實戰80 
6.4微信爬蟲實戰82 
6.5什麼是多線程爬蟲89 
6.6多線程爬蟲實戰90 
6.7小結98 

第7章 學會使用Fiddler 99 
7.1什麼是Fiddler 99 
7.2爬蟲與Fiddler的關係100 
7.3 Fiddler的基本原理與基本界面100 
7.4 Fiddler捕獲會話功能102 
7.5使用QuickExec命令行104 
7.6 Fiddler斷點功能106 
7.7 Fiddler會話查找功能111 
7.8 Fiddler的其他功能111 
7.9小結113 

第8章 爬蟲的瀏覽器偽裝技術114 
8.1什麼是瀏覽器偽裝技術114 
8.2瀏覽器偽裝技術準備工作115 
8.3爬蟲的瀏覽器偽裝技術實戰117 
8.4小結121 

第9章 爬蟲的定向爬取技術122 
9.1什麼是爬蟲的定向爬取技術122 
9.2定向爬取的相關步驟與策略123 
9.3定向 取實戰124 
9.4小結130 

第三篇 框架實現篇

第10章 了解Python爬蟲框架133 
10.1什麼是Python爬蟲框架133 
10.2常見的Python爬蟲框架133 
10.3認識Scrapy框架134 
10.4認識Crawley框架135 
10.5認識Portia框架136 
10.6認識newspaper框架138 
10.7認識Python-goose框架139 
10.8小結140 

第11章 爬蟲利器——Scrapy安裝與配置141 
11.1在Windows7下安裝及配置Scrapy實戰詳解141 
11.2在Linux(Centos)下安裝及配置Scrapy實戰詳解147 
11.3在MAC下安裝及配置Scrapy實戰詳解158 
11.4小結161 

第12章 開啟Scrapy爬蟲項目之旅162 
12.1認識Scrapy項目的目錄結構162 
12.2用Scrapy進行爬蟲項目管理163 
12.3常用工具命令166 
12.4實戰:Items的編寫181 
12.5實戰:Spider的編寫183 
12.6 XPath基礎187 
12.7 Spider類參數傳遞188 
12.8用XMLFeedSpider來分析XML源191 
12.9學會使用CSVFeedSpider 197 
12.10 Scrapy爬蟲多開技能200 
12.11避免被禁止206 
12.12小結212 

第13章 Scrapy核心架構 214 
13.1初識Scrapy架構214 
13.2常用的Scrapy組件詳解215 
13.3 Scrapy工作流217 
13.4小結219 

第14章 Scrapy中文輸出與存儲220 
14.1 Scrapy的中文輸出220 
14.2 Scrapy的中文存儲223 
14.3輸出中文到JSON文件225 
14.4小結230 

第15章 編寫自動爬取網頁的爬蟲231 
15.1實戰:items的編寫231 
15.2實戰:pipelines的編寫233 
15.3實戰:settings的編寫234 
15.4自動爬蟲編寫實戰234 
15.5調試與運行239 
15.6小結242 

第16章 CrawlSpider 243 
16.1初識CrawlSpider 243 
16.2鏈接提取器244 
16.3實戰:CrawlSpider實例245 
16.4小結249 

第17章 Scrapy高級應用250 
17.1如何在Python3中操作數據庫250 
17.2爬取內容寫進MySQL 254 
17.3小結259 


第四篇 項目實戰篇

第18章 博客類爬蟲項目263 
18.1博客類爬蟲項目功能分析263 
18.2博客類爬蟲項目實現思路264 
18.3博客類爬蟲項目編寫實戰264 
18.4調試與運行274 
18.5小結275 

第19章 圖片類爬蟲項目276 
19.1圖片類爬蟲項目功 分析276 
19.2圖片類爬蟲項目實現思路277 
19.3圖片類爬蟲項目編寫實戰277 
19.4調試與運行281 
19.5小結282 

第20章 模擬登錄爬蟲項目283 
20.1模擬登錄爬蟲項目功能分析283 
20.2模擬登錄爬蟲項目實現思路283 
20.3模擬登錄爬蟲項目編寫實戰284 
20.4調試與運行292 
20.5小結294