Python 網絡爬蟲實戰 Python网络爬虫实战

胡松濤

買這商品的人也買了...

商品描述

<內容簡介>

本書從Python的安裝開始,詳細講解了Python從簡單程序延伸到Python網絡爬蟲的全過程。本書從實戰出發,根據不同的需求選取不同的爬蟲,有針對性地講解了幾種Python網絡爬蟲。
本書共8章,涵蓋的內容有Python語言的基本語法、Python常用IDE的使用、Python第三方模塊的導入使用、Python爬蟲常用模塊、Scrapy爬蟲、Beautiful Soup爬蟲、Mechanize模擬瀏覽器和Selenium模擬瀏覽器。本書所有源代碼已上傳網盤供讀者下載。
本書內容豐富,實例典型,實用性強。適合Python網絡爬蟲初學者、數據分析與挖掘技術初學者,以及高校及培訓學校相關專業的師生閱讀。

<章節目錄>

第1章Python環境配置1
1.1Python簡介1
1.1.1Python的歷史由來1
1.1.2Python的現狀2
1.1.3Python的應用2
1.2Python開發環境配置4
1.2.1Windows下安裝Python4
1.2.2Windows下安裝配置pip9
1.2 .3Linux下安裝Python10
1.2.4Linux下安裝配置pip12
1.2.5永遠的開始:helloworld15
1.3本章小結20
第2章Python基礎21
2.1Python變量類型21
2.1.1數字21
2.1.2字符串24
2.1.3列表28
2.1.4元組34
2.1.5字典36
2.2Python語句40
2.2.1條件語句——ifelse40
2.2.2有限循環——for41
2.2.3無限循環——while43
2.2.4中斷循環——continue、break45
2.2.5異常處理——tryexcept47
2.2.6導入模塊——import49
2.3函數和類53
2.3.1函數53
2.3.2類59
2.4Python代碼格式65
2.4.1Python代碼縮進65
2.4.2Python命名規則66
2.4 .3Python代碼註釋68
2.5Python調試70
2.5.1Windows下IDLE調試70
2.5.2Linux下pdb調試73
2.6本章小結77
第3章簡單的Python腳本78
3.1九九乘法表78
3.1.1Project分析78
3.1.2Project實施78
3.2斐波那契數列80
3.2.1Project分析80
3.2.2Project實施80
3.3概率計算81
3.3.1Project分析81
3.3.2Project實施82
3.4讀寫文件83
3.4.1Project分析83
3.4.2project實施84
3.5本章小結85
第4章Python爬蟲常用模塊86
4.1Python標準庫之urllib2模塊86
4.1.1urllib2請求返回網頁86
4.1.2urllib2使用代理訪問網頁88
4.1.3urllib2修改header91
4.2Python標準庫——logging模塊95
4.2.1簡述logging模塊95
4.2.2自定義模塊myLog99
4.3其他有用模塊102
4.3.1re模塊(正則表達式操作)102
4.3.2sys模塊(系統參數獲取)105
4.3.3time模塊(獲取時間信息)106
4.4本章小結110
第5章Scrapy爬蟲框架111
5.1安裝Scrapy111
5.1.1Windows下安裝Scrapy環境111
5.1.2Linux下安裝Scrapy112
5.1.3vim編輯器113
5.2Scrapy選擇器XPath和CSS114
5.2.1XPath選擇器114
5.2.2CSS選擇器117
5.2.3其他選擇器118
5.3Scrapy爬蟲實戰一:今日影視118
5.3.1創建Scrapy項目119
5.3.2Scrapy文件介紹120
5.3.3Scrapy爬蟲編寫123
5.4Scrapy爬蟲實戰二:天氣預報129
5.4.1項目準備130
5.4.2創建編輯Scrapy爬蟲131
5.4.3數據存儲到json138
5.4.4數據存儲到MySQL140
5.5Scrapy爬蟲實戰三:獲取代理146
5.5.1項目準備146
5.5.2創建編輯Scrapy爬蟲147
5.5.3多個Spider153
5.5.4處理Spider數據157
5.6Scrapy爬蟲實戰四:糗事百科159
5.6.1目標分析159
5.6.2創建編輯Scrapy爬蟲160
5.6.3Scrapy項目中間件——添加headers161
5.6.4Scrapy項目中間件——添加proxy165
5.7scrapy爬蟲實戰五:爬蟲攻防167
5.7.1創建一般爬蟲167
5.7.2封鎖間隔時間破解171
5.7.3封鎖Cookies破解171
5.7.4封鎖user—agent破解171
5.7.5封鎖IP破解174
5.8本章小結177
第6章BeautifulSoup爬蟲178
6.1安裝BeautifulSoup環境178
6.1.1Windows下安裝BeautifulSoup178
6.1.2Linux下安裝BeautifulSoup179
6.1.3最強大的IDE——Eclipse179
6.2BeautifulSoup解析器188
6.2.1bs4解析器選擇188
6.2. 2lxml解析器安裝189
6.2.3使用bs4過濾器190
6.3bs4爬蟲實戰一:獲取百度貼吧內容196
6.3.1目標分析196
6.3.2項目實施197
6.3.3代碼分析205
6.3.4Eclipse調試206
6.4bs4爬蟲實戰二:獲取雙色球中獎信息207
6.4.1目標分析207
6.4.2項目實施210
6.4.3保存結果到Excel214
6.4.4代碼分析221
6.5bs4爬蟲實戰三:獲取起點小說信息221
6.5.1目標分析222
6.5.2項目實施223
6.5.3保存結果到MySQL226
6.5.4代碼分析230
6.6bs4爬蟲實戰四:獲取電影信息230
6.6.1目標分析230
6.6.2項目實施232
6.6.3bs4反爬蟲235
6.6.4代碼分析237
6.7bs4爬蟲實戰五:獲取音悅台榜單238
6.7.1目標分析238
6.7.2項目實施239
6.7.3代碼分析244
6.8本章小結245
第7章Mechanize模擬瀏覽器246
7.1安裝Mechanize模塊246
7.1.1Windows下安裝Mechanize246
7.1.2Linux下安裝Mechanize247
7.2Mechanize測試248
7.2.1Mechanize百度248
7.2.2Mechanize光貓F460251
7.3Mechanize實站一:獲取Modem信息254
7.3.1獲取F460數據254
7.3.2代碼分析257
7.4Mechanize實戰二:獲取音悅台公告258
7.4.1登錄原理258
7.4.2獲取Cookie的方法259
7.4.3獲取Cookie262
7.4.4使用Cookie登錄獲取數據266
7.5本章總結270
第8章Selenium模擬瀏覽器271
8.1安裝Selenium模塊271
8.1.1Windows下安裝Selenium模塊271
8.1.2Linux下安裝Selenium模塊272
8.2瀏覽器選擇272
8.2.1Webdriver支持列表272
8.2.2Windows下安裝PhantomJS273
8.2.3Linux下安裝PhantomJS276
8.3Selenium&PhantomJS抓取數據277
8.3.1獲取百度搜索結果277
8.3.2獲取搜索結果280
8.3.3獲取有效數據位置282
8.3.4從位置中獲取有效數據284
8.4Selenium&PhantomJS實戰一:獲取代理285
8.4.1準備環境285
8.4 .2爬蟲代碼287
8.4.3代碼解釋289
8.5Selenium&PhantomJS實戰二:漫畫爬蟲289
8.5.1準備環境290
8.5.2爬蟲代碼291
8.5.3代碼解釋294
8.6本章總結294