Python 3.x 網絡爬蟲從零基礎到項目實戰
史衛亞
- 出版商: 北京大學
- 出版日期: 2020-05-01
- 定價: $648
- 售價: 8.5 折 $551
- 語言: 簡體中文
- 頁數: 612
- 裝訂: 平裝
- ISBN: 7301312822
- ISBN-13: 9787301312827
-
相關分類:
Web-crawler 網路爬蟲
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
Python 自動化的樂趣|搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)$500$395 -
演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)$580$458 -
Python 初學特訓班 (增訂版) (附250分鐘影音教學/範例程式)$480$379 -
$403AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications) -
為你自己學 Git$500$390 -
$352關聯數據:萬維網上的結構化數據 -
MIS 一定要懂的 82個網路技術知識$360$284 -
圖說演算法:使用 C語言$380$296 -
網站擷取|使用 Python, 2/e (Web Scraping with Python: Collecting More Data from the Modern Web, 2/e)$580$458 -
SQL 語法查詢入門|挖掘數據真相,征服大數據時代的第一本書 (Practical SQL: A Beginner's Guide to Storytelling with Data)$580$458 -
秒懂金融科技$380$300 -
SQL 達人的工作現場攻略筆記$580$458 -
$237Python 網絡爬蟲開發從入門到精通 -
NumPy 高速運算徹底解說 - 六行寫一隻程式?你真懂深度學習?手工算給你看!$750$638 -
$454Python 3 反爬蟲原理與繞過實戰 -
矽谷工程師爬蟲手冊:用 Python 成為進階高手$890$703 -
用 Excel 學 Python 資料分析$450$356 -
$254Python 爬蟲開發實戰教程 -
$250簡單高效 LaTeX -
AI 黃金時期正好學:TensorFlow 2 高手有備而來$760$600 -
$374網絡爬蟲進化論 — 從 Excel 爬蟲到 Python 爬蟲 -
$454Python 自動化辦公:3分鐘完成一天工作 -
$403Python 項目開發實戰 -
Python 網路爬蟲:大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e$750$593 -
OpenCV 影像創意邁向 AI 視覺王者歸來 (全彩印刷)$890$668
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書通過精選案例引導讀者係統學習,系統完整地介紹了網絡爬蟲的開發知識和技巧。
本書主要基於Python 3.7開發網絡爬蟲,主要內容包括認識爬蟲、
爬蟲需要具備的基礎知識、數據提取的方式、如何提高爬蟲的效率、
數據的存儲、動態頁面的爬取、機器識別、模擬登陸、
設置代理IP、Scrapy爬蟲框架和分佈式爬蟲等知識點。
為了讓讀者更好的掌握這些技術和更多的瞭解爬蟲的功能,本書後提供了九個實戰項目,
通過大量案例操作,來讓讀者提高爬蟲的反爬和數據提取等爬蟲技術實戰的能力。
本書不僅適合零基礎或有部分編碼能力並對爬蟲技術有興趣的讀者,
而且適合準備從事或學習數據科學與人工智能相關行業的讀者。
作者簡介
史衛亞
博士,副教授,IEEE會員,CCF會員,INNS會員。
2009年獲得複旦大學計算機應用專業博士學位。
2015—2016年在美國北卡羅來納大學做訪問學者,對機器學習、
大數據檢索、數據庫、圖像和視頻處理、人工智能和模式識別等有深入研究。
目錄大綱
目錄
第1章爬蟲基礎1
1.1認識爬蟲2
1.2 Python環境4
1.3 Python語法11
1.4網頁結構62
1.5 HTTP協議68
1.6本章小結84
1.7實戰練習84
第2章開始爬蟲85
2.1 urllib模塊86
2.2 requests模塊88
2.3 re模塊110
2.4項目案例:爬百度貼吧122
2.5本章小結128
2.6實戰練習128
第3章更多數據提取的方式129
3.1 XPath和LXml 130
3.2 BeautifulSoup4 137
3.3 JsonPath 143
3.4性能和選擇148
3.5項目案例:爬騰訊招聘網148
3.6本章小結154
3.7實戰練習154
第4章並發155
4.1 100萬個網頁156
4.2進程161
4.3線程181
4.4鎖191
4.5協程202
4.6線程、進程、協程對比206
4.7並發爬蟲207
4.8本章小結216
4.9實戰練習216
第5章數據存儲217
5.1文件存儲218
5.2關係型數據庫存儲221
5.3非關係型數據庫存儲231
5.4項目案例:爬豆瓣電影266
5.5本章小結270
5.6實戰練習270
第6章Ajax數據爬取271
6.1 Ajax的概念272
6.2實現Ajax 272
6.3項目案例:爬鬥魚直播282
6.4本章小結286
6.5實戰練習286
第7章動態渲染頁面爬取287
7.1 Selenium 288
7.2項目案例:爬京東商品306
7.3本章小結311
7.4實戰練習312
第8章圖形驗證碼識別313
8.1使用pytesseract 314
8.2使用打碼平臺317
8.3項目案例:識別驗證碼完成登錄323
8.4本章小結326
8.5實戰練習326
第9章模擬登錄327
9.1 Cookie 328
9.2 Session 330
9.3 Cookie池的搭建332
9.4項目案例:登錄GitHub 335
9.5本章小結340
9.6實戰練習340
第10章代理IP的使用341
10.1代理IP 342
10.2代理IP池348
10.3付費代理的使用351
10.4項目案例:使用代理IP爬微信公眾號358
10.5本章小結368
10.6實戰練習368
第11章Scrapy框架369
11.1認識Scrapy 370
11.2編寫Scrapy的第一個案例373
11.3 Spider詳情384
11.4操作數據403
11.5模擬登錄432
11.6中間件446
11.7分佈式458
11.8項目案例:爬新浪新聞500
11.9本章小結510
11.10實戰練習510
第12章項目案例:爬校花網信息511
12.1分析網站512
12.2開始爬取515
第13章項目案例:爬北京地區短租房信息523
13.1分析網站524
13.2開始爬取525
第14章項目案例:爬簡書專題信息531
14.1分析網站532
14.2開始爬取535
第15章項目案例:爬QQ音樂歌曲539
15.1分析網站540
15.2開始爬取542
第16章項目案例:爬百度翻譯545
16.1分析網站546
16.2開始爬取550
第17章項目案例:爬百度地圖API 555
17.1分析網站556
17.2開始爬取560
第18章項目案例:爬360圖片571
18.1分析網站572
18.2開始爬取573
第19章項目案例:爬噹噹網577
19.1分析網站578
19.2開始爬取580
第20章項目案例:爬唯品會585
20.1分析網站586
20.2開始爬取589
第21章項目案例:爬智聯招聘593
21.1分析網站594
21.2開始爬取597
