Python網絡爬蟲項目開發全程實錄

明日科技

  • 出版商: 清華大學
  • 出版日期: 2025-07-01
  • 售價: $479
  • 語言: 簡體中文
  • 裝訂: 平裝
  • ISBN: 7302695032
  • ISBN-13: 9787302695035
  • 相關分類: Web-crawler 網路爬蟲
  • 下單後立即進貨 (約4週~6週)

  • Python網絡爬蟲項目開發全程實錄-preview-1
  • Python網絡爬蟲項目開發全程實錄-preview-2
  • Python網絡爬蟲項目開發全程實錄-preview-3
  • Python網絡爬蟲項目開發全程實錄-preview-4
  • Python網絡爬蟲項目開發全程實錄-preview-5
  • Python網絡爬蟲項目開發全程實錄-preview-6
  • Python網絡爬蟲項目開發全程實錄-preview-7
Python網絡爬蟲項目開發全程實錄-preview-1

相關主題

商品描述

《Python網絡爬蟲項目開發全程實錄》精選 11個熱門的網絡爬蟲項目,突出了實用性。具體項目包含:智能破解驗證碼、手機數據爬取精靈、汽車之家圖片抓取工具、高清壁紙快車(多線程版)、多進程影視獵手、分布式爬取動態新聞數據、世界 500 強數據爬取與分析、二手房信息智能抓取分析系統、圖書熱銷偵探、APP 數據采集先鋒、微信智能機器人。本書從軟件工程的角度出發,按照項目開發的順序,系統、全面地講解每一個項目的開發實現過程。體例上,每章一個項目,統一采用“開發背景一系統設計一技術準備一各功能模塊的設計與實現一項目運行一源碼下載”的形式完整呈現項目,讓讀者快速積累實際項目經驗與技巧,早日實現就業目標。

作者簡介

明日科技,全稱是吉林省明日科技有限公司,是一家專業從事軟件開發、教育培訓以及軟件開發教育資源整合的高科技公司,其編寫的教材非常註重選取軟件開發中的必需、常用內容,同時也很註重內容的易學、方便性以及相關知識的拓展性,深受讀者喜愛。其教材多次榮獲“全行業****品種”“全國高校出版社****書”等獎項,多個品種長期位居同類圖書銷售排行榜的前列。

目錄大綱

目錄

第 1 章 智能破解驗證碼 1

——re 正則表達式 + requests + BeautifulSoup(bs4)+Pillow + tesserocr + selenium

1.1 開發背景 1

1.2 系統設計 2

1.2.1 開發環境 2

1.2.2 業務流程 2

1.2.3 功能結構 3

1.3 技術準備 3

1.3.1 技術概覽 3

1.3.2 Pillow 模塊的使用 4

1.3.3 tesserocr 模塊的使用 4

1.3.4 Selenium 自動化測試工具的使用 6

1.4 功能設計 7

1.4.1 破解字符驗證碼 7

1.4.2 破解滑動拼圖驗證碼 9

1.4.3 第三方平臺識別驗證碼 11

1.5 項目運行 15

1.6 源碼下載 16

第 2 章 手機數據爬取精靈 17

——random + time + PyMySQL + requests_html

2.1 開發背景 17

2.2 系統設計 18

2.2.1 開發環境 18

2.2.2 業務流程 18

2.2.3 功能結構 18

2.3 技術準備 19

2.3.1 技術概覽 19

2.3.2 random 模塊的使用 20

2.3.3 time 模塊的使用 21

2.3.4 requests_html 模塊的使用 22

2.4 數據庫設計 23

2.5 功能設計 24

2.5.1 分析手機數據網頁中的分頁規律 24

2.5.2 分析手機詳情頁地址 25

2.5.3 確認手機詳情頁中的各項信息對應的位置 26

2.5.4 導入模塊 26

2.5.5 定義公共變量 26

2.5.6 實現爬取數據並插入數據庫功能 27

2.5.7 實現下載手機圖片功能 29

2.5.8 定義程序入口 29

2.6 項目運行 29

2.7 源碼下載 32

第 3 章 汽車之家圖片爬取工具 33

——文件讀寫 + 文件夾操作 + urllib +BeautifulSoup(bs4)+ PyQt5 + Pillow

3.1 開發背景 33

3.2 系統設計 34

3.2.1 開發環境 34

3.2.2 業務流程 34

3.2.3 功能結構 34

3.3 技術準備 35

3.3.1 技術概覽 35

3.3.2 使用 PyQt5 設計 Python 窗體程序 36

3.4 設計主窗體 41

3.5 功能設計 44

3.5.1 模塊導入 44

3.5.2 通過爬蟲爬取並保存圖片 44

3.5.3 在主窗體中調用爬蟲方法 47

3.5.4 分類查看爬取的汽車圖片 48

3.5.5 單擊查看大圖 50

3.6 項目運行 51

3.7 源碼下載 52

第 4 章 高清壁紙快車(多線程版) 53

——文件讀寫 + requests + BeautifulSoup4(bs4)+PyQt5 + concurrent.futur

4.1 開發背景 53

4.2 系統設計 54

4.2.1 開發環境 54

4.2.2 業務流程 54

4.2.3 功能結構 54

4.3 技術準備 55

4.3.1 技術概覽 55

4.3.2 concurrent.futures 模塊的使用 56

4.4 設計主窗體 58

4.5 功能設計 60

4.5.1 模塊導入 60

4.5.2 多線程爬取並保存高清壁紙 60

4.5.3 在 PyQt5 窗體中調用爬蟲方法 64

4.5.4 使用列表顯示爬取的所有高清壁紙名稱 65

4.5.5 在 PyQt5 窗體中查看爬取的高清壁紙 66

4.6 項目運行 67

4.7 源碼下載 68

第 5 章 多進程影視獵手 69

——requests + BeautifulSoup(bs4)+ re 正則表達式 + fake_useragent + multiprocessing + PyMySQ

5.1 開發背景 69

5.2 系統設計 70

5.2.1 開發環境 70

5.2.2 業務流程 70

5.2.3 功能結構 70

5.3 技術準備 71

5.3.1 技術概覽 71

5.3.2 fake_useragent 模塊的使用 72

5.4 數據庫設計 73

5.5 功能設計 74

5.5.1 分析網頁請求地址 74

5.5.2 獲取電影詳情頁地址 75

5.5.3 爬取電影詳細信息 76

5.5.4 將爬取的數據添加到數據庫中 78

5.5.5 定義程序入口 79

5.6 項目運行 80

5.7 源碼下載 82

第 6 章 分布式爬取動態新聞數據 83

——Scrapy + Scrapy-Redis + PyMySQL +Redis

6.1 開發背景 83

6.2 系統設計 84

6.2.1 開發環境 84

6.2.2 業務流程 84

6.2.3 功能結構 85

6.3 技術準備 85

6.3.1 技術概覽 85

6.3.2 Redis 數據庫的使用 86

6.3.3 Scrapy-Redis 模塊 87

6.4 創建數據表 88

6.5 功能設計 89

6.5.1 分析請求地址 90

6.5.2 創建隨機請求頭 90

6.5.3 創建數據對象 91

6.5.4 將爬取的數據寫入 MySQL 數據庫中 91

6.5.5 數據的爬取與爬蟲項目啟動 92

6.5.6 編寫配置文件 93

6.6 項目運行 94

6.7 源碼下載 97

第 7 章 世界 500 強數據爬取與分析 98

——pandas + matplotlib + seaborn + lambda 函數

7.1 開發背景 98

7.2 系統設計 99

7.2.1 開發環境 99

7.2.2 業務流程 99

7.2.3 功能結構 100

7.3 技術準備 100

7.3.1 技術概覽 100

7.3.2 詳解 read_htlm()獲取網頁數據全過程 101

7.3.3 DataFrame 對象常用方法的使用 102

7.3.4 使用 lambda 函數快速處理數據 105

7.4 數據準備 106

7.4.1 數據集介紹 106

7.4.2 確定網頁數據的結構 106

7.4.3 爬取數據 107

7.4.4 查看數據 108

7.5 統計分析 110

7.5.1 新上榜企業統計 110

7.5.2 統計排名上升的企業 110

7.5.3 柱狀圖分析世界 500 強排行 TOP10 112

7.5.4 折線圖分析利潤前 20 的企業 113

7.5.5 柱狀圖統計各國上榜企業的總營收 115

7.5.6 柱狀圖統計國內上榜企業的營收情況 115

7.5.7 餅圖分析各國上榜企業比例 117

7.6 項目運行 119

7.7 源碼下載 120

第 8 章 二手房信息智能抓取分析系統 121

——requests_html + pandas + matplotlib +multiprocessing

8.1 開發背景 121

8.2 系統設計 122

8.2.1 開發環境 122

8.2.2 業務流程 122

8.2.3 功能結構 122

8.3 技術準備 123

8.3.1 技術概覽 123

8.3.2 requests_html 模塊的使用 124

8.4 功能設計 125

8.4.1 分析網頁數據結構 125

8.4.2 爬取二手房數據 127

8.4.3 清洗數據 129

8.4.4 餅圖顯示各區二手房數量所占比例 129

8.4.5 柱狀圖顯示各區二手房均價 130

8.4.6 柱狀圖顯示熱門戶型均價 131

8.4.7 設計主菜單 132

8.4.8 定義程序入口 133

8.5 項目運行 134

8.6 源碼下載 135

第 9 章 圖書熱銷偵探 136

——PyQt5 + requests + PyMySQL + matplotlib

9.1 開發背景 137

9.2 系統設計 137

9.2.1 開發環境 137

9.2.2 業務流程 137

9.2.3 功能結構 138

9.3 技術預覽 138

9.4 數據庫設計 140

9.5 公共模塊設計 142

9.5.1 mysql 數據庫操作模塊 142

9.5.2 crawl 網絡爬蟲模塊 144

9.5.3 chart 繪圖模塊 145

9.6 主窗體設計 146

9.6.1 窗體 UI 設計 146

9.6.2 美化窗體 149

9.6.3 邏輯功能實現 151

9.7 圖書銷量排行榜窗體設計 153

9.7.1 窗體 UI 設計 153

9.7.2 美化窗體 155

9.7.3 顯示圖書銷量排行榜 155

9.8 圖書熱評排行榜窗體設計 156

9.8.1 窗體 UI 設計 156

9.8.2 美化窗體 158

9.8.3 顯示圖書熱評排行榜 158

9.9 “關於”窗體設計 159

9.9.1 窗體 UI 設計 159

9.9.2 設置背景圖片 160

9.10 UI 代碼分離模塊設計 161

9.10.1 導入模塊 161

9.10.2 定義公共變量及函數 161

9.10.3 定義窗體初始化類 161

9.10.4 定義程序入口 162

9.11 項目運行 163

9.12 源碼下載 165

第 10 章 APP 數據采集先鋒 166

——requests + BeautifulSoup(bs4)+lxml.etree +Charles 抓包工具

10.1 開發背景 166

10.2 系統設計 167

10.2.1 開發環境 167

10.2.2 業務流程 167

10.2.3 功能結構 168

10.3 技術準備 168

10.3.1 技術概覽 168

10.3.2 lxml.etree 模塊的使用 168

10.3.3 Charles 抓包工具的使用 171

10.4 功能設計 178

10.4.1 配置手機端網絡 178

10.4.2 采集手機 APP 網絡請求 180

10.4.3 分析數據所在的標簽位置 183

10.4.4 爬取 APP 數據 183

10.5 項目運行 184

10.6 源碼下載 185

第 11 章 微信智能機器人 186

——requests + lxml + xpinyin + Flask + 微信公眾平臺 + Ngrok 內網穿透工具

11.1 開發背景 186

11.2 系統設計 187

11.2.1 開發環境 187

11.2.2 業務流程 187

11.2.3 功能結構 187

11.3 技術準備 188

11.3.1 技術概覽 188

11.3.2 lxml 模塊的使用 189

11.3.3 xpinyin 模塊的使用 190

11.3.4 微信公眾平臺開發必備 191

11.3.5 內網穿透工具的使用 196

11.4 爬取新聞標題 198

11.4.1 頁面分析 198

11.4.2 隨機爬取一條新聞標題 199

11.5 爬取天氣信息 200

11.5.1 頁面分析 201

11.5.2 爬取天氣信息 202

11.6 微信智能機器人的實現 203

11.6.1 設置配置文件 203

11.6.2 校驗微信簽名 205

11.6.3 配置微信公眾號 206

11.6.4 實現自動回復功能 207

11.6.5 創建主程序文件 209

11.7 項目運行 209

11.8 源碼下載 210