Python爬蟲與網絡數據采集案例實踐(微課視頻版)
葉麗珠 張蘭 編著
- 出版商: 清華大學
- 出版日期: 2026-06-01
- 售價: $359
- 語言: 簡體中文
- 頁數: 218
- ISBN: 7302717907
- ISBN-13: 9787302717904
-
相關分類:
Web-crawler 網路爬蟲
下單後立即進貨 (約4週~6週)
相關主題
商品描述
"本書以理論結合實踐為導向,系統介紹 Python 爬蟲與網絡數據采集知識體系,旨在幫助讀者迅速掌握相關技能,並能靈活運用於實際應用場景的數據采集項目中。 本書以Python為開發語言,以PyCharm為集成開發環境,全面介紹網絡爬蟲開發相關知識。本書的主要內容涵蓋爬蟲與網絡數據采集概述、網絡爬蟲基礎知識、爬蟲流程與Requests庫的使用、網頁數據解析與提取、爬蟲數據的存儲、動態網頁數據采集、反爬策略與反反爬技巧、Scrapy爬蟲框架的應用、實踐案例“多類型數據采集與存儲”。 本書可以作為高等學校數據科學與大數據技術、計算機科學與技術、軟件工程等計算機相關專業的教材,以及網絡爬蟲技術愛好者、數據分析從業人員的自學用書。 "
目錄大綱
目錄
第1章爬蟲與網絡數據采集概述
1.1認識數據采集
1.1.1數據采集的概念
1.1.2常見的數據來源
1.1.3數據采集的方法
1.2走近網絡爬蟲
1.2.1網絡爬蟲概念與分類
1.2.2爬蟲的應用場景
1.3網絡數據采集的工作原理與流程
1.3.1網絡數據采集的工作原理
1.3.2網絡數據采集的流程
1.4網絡數據采集的實現技術
1.4.1網絡數據采集的編程語言
1.4.2網絡數據采集的可視化工具
1.5網絡數據采集的合法性
1.5.1Robots協議
1.5.2防爬蟲的措施
1.5.3數據采集合法性案例
1.6Python爬蟲環境搭建
1.6.1Python 版本簡介與安裝
1.6.2PyCharm的安裝與配置
1.6.3Python爬蟲相關庫的簡介與安裝
1.6.4八爪魚采集器的安裝
1.7綜合案例——采集“小說”類圖書信息
第2章網絡爬蟲基礎知識
2.1瀏覽器加載網頁的過程
2.2網頁基礎知識
2.2.1網絡開發技術
2.2.2網頁的結構
2.2.3網頁的分類
2.2.4網頁數據的格式
2.3HTTP基礎知識
2.3.1URL簡介
2.3.2HTTP與HTTPS
2.3.3HTTP請求格式
2.3.4HTTP響應格式
2.3.5Cookie簡介
2.4Google開發者工具
2.5綜合案例——采集2024年中國大學排名
第3章爬蟲流程與Requests庫的使用
3.1Python爬蟲基本流程
3.2Requests庫的使用
3.2.1發起請求
3.2.2數據解析
3.2.3數據存儲
3.3綜合案例——采集排行榜電影信息
3.4拓展案例——采集翻譯信息
第4章網頁數據解析與提取
4.1Beautiful Soup 的使用
4.1.1Beautiful Soup簡介與解析原理
4.1.2Beautiful Soup的應用
4.1.3綜合案例——采集熱門榜單熱歌榜音樂信息
4.2正則表達式的使用
4.2.1正則表達式常用符號
4.2.2re模塊及其方法的使用
4.2.3綜合案例——采集Top250電影信息
4.3lxml庫與XPath的使用
4.3.1lxml庫簡介與使用
4.3.2XPath語法與使用
4.3.3XPath開發工具
4.3.4綜合案例——采集“爬蟲”圖書信息
4.4拓展案例——采集二手車信息
第5章爬蟲數據的存儲
5.1爬蟲數據的存儲方式
5.2存儲至JSON文件
5.2.1JSON簡介與語法
5.2.2JSON庫的使用
5.2.3綜合案例——采集交通數據
5.3存儲至MongoDB數據庫
5.3.1MongoDB數據庫的安裝
5.3.2Navicat的安裝與使用
5.3.3MongoDB 數據庫的使用
5.3.4綜合案例——采集二手書信息
5.4存儲至MySQL數據庫
5.4.1MySQL的下載與安裝
5.4.2MySQL數據庫的基本操作
5.4.3MySQL數據庫的使用
5.4.4綜合案例——采集熱門遊記信息
5.5拓展案例——采集貼吧信息
第6章動態網頁數據采集
6.1靜態網頁與動態網頁的區分
6.2使用逆向分析法采集動態網頁
6.2.1逆向分析法的使用
6.2.2綜合案例——采集簡書大學堂精選好課
6.3使用Selenium采集動態網頁
6.3.1Selenium庫和瀏覽器驅動的安裝
6.3.2Selenium庫的使用
6.3.3綜合案例——采集圖片數據
6.4拓展案例——采集非物質文化遺產信息
第7章反爬策略與反反爬技巧
7.1反爬蟲與反反爬蟲的定義
7.1.1反爬蟲簡介
7.1.2反反爬蟲簡介
7.2反爬蟲技術
7.2.1靜態頁面反爬蟲技術
7.2.2動態頁面反爬蟲技術
7.2.3反爬蟲技術實踐
7.3反反爬蟲技術
7.3.1IP代理與輪詢
7.3.2模擬自然人行為
7.3.3回避驗證機制
7.3.4反反爬蟲策略的動態調整
7.3.5綜合案例——采集百度翻譯
7.4拓展案例——采集招聘網崗位信息
第8章Scrapy 爬蟲框架的應用
8.1Scrapy框架概述
8.1.1Scrapy簡介與特點
8.1.2安裝與配置Scrapy
8.2Scrapy的工作原理
8.3綜合案例——采集古詩詞排行榜
8.3.1爬蟲的基本構建
8.3.2使用XPath和CSS選擇器提取數據
8.4拓展案例——采集微博搜索文章信息
第9章實踐案例——多類型數據采集與存儲
9.1采集股票財經信息
9.1.1JSON數據解析
9.1.2股票財經信息采集
9.2采集聚合數據官網的天氣數據
9.2.1聚合數據API使用流程
9.2.2天氣數據采集與分析
9.3采集安居客租房信息
9.3.1采集需求分析
9.3.2采集思路分析
9.3.3數據采集及存儲
參考文獻







