Python 網絡爬蟲框架 Scrapy 從入門到精通

張穎著

出版商: 北京大學
出版日期: 2021-04-01
定價: $474
售價: 8.5 折 $403
語言: 簡體中文
頁數: 292
裝訂: 平裝
ISBN: 7301320221
ISBN-13: 9787301320228
相關分類: Web-crawler 網路爬蟲

立即出貨 (庫存 < 3)

買這商品的人也買了...

~~$480~~ $379

鳥哥的 Linux 基礎學習訓練教材
$354

精通 Python 爬蟲框架 Scrapy (Learning Scrapy)
$403

Python 網絡爬蟲實戰, 2/e
$378

Python 網絡爬蟲實戰
~~$580~~ $458

Kafka 技術手冊｜即時資料與串流處理 (Kafka: The Definitive Guide)
~~$560~~ $199

UML 物件導向系統分析與設計, 4/e
~~$490~~ $417

機器學習開發神器！Google Cloud Platform 雲端開發應用超入門
~~$534~~ $507

Python 爬蟲技術 — 深入理解原理、技術與開發
~~$1,000~~ $850

Kaggle 競賽攻頂秘笈 -- 揭開 Grandmaster 的特徵工程心法，掌握制勝的關鍵技術
~~$880~~ $695

超圖解 ESP32 深度實作
$284

Python 網絡爬蟲與數據採集
~~$750~~ $593

Python 網路爬蟲：大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e
$839

Python3 網絡爬蟲開發實戰, 2/e
$281

基於Python的概率論與數理統計實驗
~~$680~~ $449

ChatGPT 指令大全與創新應用：GPT-4 搶先看、串接 API、客服機器人、AI英文家教，一鍵打造 AI智慧產品
~~$594~~ $564

穿越作業系統迷霧：從零實現作業系統
$607

Python 爬蟲從菜鳥到高手
$458

AI大模型開發之路：從入門到實踐
~~$680~~ $537

全面掌握 Gemini 開發實務：輕鬆駕馭 Google AI 引擎
~~$594~~ $564

從零開始寫 Linux 內核 (一書學透核心原理與實現)
~~$714~~ $678

算法競賽入門筆記
$510

零基礎開發 AI Agent：手把手教你用釦子做智能體
~~$780~~ $585

人人都會 AI 繪圖：開啟斜槓人生金鑰匙，2000件生成作品 + 完整提示詞（全書中英文提示詞，立即下載使用）
~~$880~~ $695

開源閉源 LLM 應用 - 從微調到 RAG、Agent 完整開發實作
~~$550~~ $435

Microsoft Azure AI Services 與 Azure OpenAI 開發基礎必修課 -- 使用 C#

中文年末書展｜繁簡參展書2書75折詳見活動內容 »

75折
~~$780~~ $585

為你寫的 Vue Components：從原子到系統，一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)
75折
~~$960~~ $720

BDD in Action, 2/e (中文版)
75折
~~$750~~ $563

看不見的戰場：社群、AI 與企業資安危機
79折
~~$390~~ $308

AI 精準提問 × 高效應用：DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定
7折
~~$420~~ $294

超實用！Word．Excel．PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)
75折
~~$550~~ $412

裂縫碎光：資安數位生存戰
85折
~~$640~~ $544

日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集
79折
~~$630~~ $498

Google BI 解決方案：Looker Studio × AI 數據驅動行銷實作，完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini
79折
~~$599~~ $473

超有料 Plus！職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化！
75折
~~$690~~ $518

從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)
75折
~~$640~~ $480

Windows 11 制霸攻略：圖解 AI 與 Copilot 應用，輕鬆搞懂新手必學的 Windows 技巧
75折
~~$480~~ $360

精準駕馭 Word！論文寫作絕非難事 (好評回饋版)
~~$699~~ $629

Sam Yang 的插畫藝術：用 Procreate / PS 畫出最強男友視角 x 女孩美好日常
79折
~~$599~~ $473

AI 加持！Google Sheets 超級工作流
78折
~~$780~~ $608

想要 SSR? 快使用 Nuxt 吧!：Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化（iThome鐵人賽系列書）
78折
~~$500~~ $390

超實用！業務．總管．人資的辦公室 WORD 365 省時高手必備 50招 (第二版)
7折
~~$680~~ $476

Node-RED + YOLO + ESP32-CAM：AIoT 智慧物聯網與邊緣 AI 專題實戰
79折
~~$599~~ $473

「生成式⇄AI」：52 個零程式互動體驗，打造新世代人工智慧素養
7折
~~$720~~ $504

Windows APT Warfare：惡意程式前線戰術指南, 3/e
75折
~~$850~~ $637

我輩程式人：回顧從 Ada 到 AI 這條程式路，程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)
75折
~~$600~~ $450

不用自己寫！用 GitHub Copilot 搞定 LLM 應用開發
79折
~~$780~~ $616

Tensorflow 接班王者：Google JAX 深度學習又快又強大 (好評回饋版)
79折
~~$700~~ $553

GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)
79折
~~$460~~ $363

技術士技能檢定電腦軟體應用丙級術科解題教本｜Office 2021
75折
~~$560~~ $420

Notion 與 Notion AI 全能實戰手冊：生活、學習與職場的智慧策略 (暢銷回饋版)

商品描述

本書從Python主流框架Scrapy的簡介及網絡爬蟲知識講起，逐步深入到Scrapy進階實戰。
本書從實戰出發，根據不同需求，有針對性地講解了靜態網頁、動態網頁、App應用是如何爬取所需數據，
以及Scrapy是如何部署分佈式爬取，最後還介紹了用Scrapy + Pandas是如何進行數據分析及數據展示，
讓讀者不但可以系統地學習Scrapy編程的相關知識，而且還能對Scrapy應用開發有更為深入的理解。
本書分為12章，涵蓋的主要內容有Scrapy框架簡介；
Scrapy網絡爬蟲知識介紹；Scrapy開發環境的搭建；Scrapy架構及編程；Scrapy進階；實戰項目：
Scrapy靜態網頁的爬取；實戰項目：Scrapy動態網頁的爬取；實戰項目：Scrapy爬取App應用數據；
Scrapy的分佈式部署與爬取；分佈式的實戰項目；用Selenium框架測試網站；用Scrapy + Pandas進行數據分析。
本書內容通俗易懂，實例典型，實用性強，特別適合學習Python主流框架Scrapy的入門讀者和進階讀者閱讀，
也適合數據分析與挖掘技術的初學者閱讀，還適合相關培訓機構的師生閱讀。

作者簡介

張穎
“清穎設計”微信公眾號創始人，現任上海懂得網絡科技有限公司技術部主管，從事編程開發十餘年，
熟悉Python的方方面面，尤其擅長Python爬蟲和數據分析。

目錄大綱

第1章Scrapy框架簡介
1.1 Scrapy簡介2
1.2 關於本書：目標和用途2
1.3 進行自動化數據爬取的重要性3
1.4 掌握自動化測試的重要性3
1.5 合理規劃，開發高質量的應用4
1.6 網絡數據的採集法律與道德約束5
1.7 本章小結5
第2章Scrapy網絡爬蟲知識介紹
2.1 爬蟲的作用7
2.2 爬蟲必備的前端知識9
2.3 爬蟲經常用的Python語法26
2.4 本章小結44
第3章Scrapy開發環境的搭建
3.1 安裝Python 47
3.2 數據庫的安裝50
3.3 安裝Scrapy 56
3.4 本章小結60
第4章Scrapy架構及編程
4.1 Scrapy架構及目錄源碼分析62
4.2 Scrapy項目的創建和管理67
4.3 PyCharm如何調試Scrapy 72
4.4 Scrapy的組件77
4.5 Scrapy的數據流78
4.6 數據存儲78
4.7 Scrapy如何定義中間件80
4.8 Scrapy其他方法的使用82
4.9 本章小結83
第5章Scrapy進階
5.1 理解Scrapy性能85
5.2 編寫Spider的邏輯93
5.3 Item和Pipeline 95
5.4 數據庫存儲98
5.5 Scrapy集成隨機User-Agent和代理IP 100
5.6 突破反爬技術102
5.7 圖片和文件下載103
5.8 如何部署爬蟲108
5.9 計劃定時爬取111
5.10 本章小結112
第6章實戰項目：Scrapy靜態網頁的爬取
6.1 採集需求及網頁分析114
6.2 數據表的設計115
6.3 獲取和解析列表、詳情頁115
6.4 數據存儲117
6.5 數據的導出和展示119
6.6 本章小結121
第7章實戰項目：Scrapy動態網頁的爬取
7.1 採集需求及網頁分析123
7.2 Selenium的安裝和使用124
7.3 解析網頁及代碼的實現126
7.4 數據的存儲128
7.5 數據的導出130
7.6 本章小結133
第8章實戰項目：Scrapy爬取App應用數據
8.1 搭建開發環境135
8.2 移動自動化工具144
8.3 Appium Desktop工具的錄製功能147
8.4 App應用數據抓取實戰項目150
8.5 本章小結158
第9章Scrapy的分佈式部署與爬取
9.1 分佈式系統概述及要點160
9.2 使用Gerapy管理分佈式爬蟲162
9.3 通過Scrapyd + ScrapydWeb簡單高效地部署和監控分佈式爬蟲項目168
9.4 使用Scrapy-Redis實現分佈式爬蟲174
9.5 本章小結195
第10章分佈式的實戰項目
10.1 搭建Redis服務器197
10.2 創建主項目及配置Scrapy-Redis 197
10.3 創建從項目及配置Scrapy-Redis 200
10.4 部署代理IP池及User-Agent 203
10.5 執行程序205
10.6 本章小結206
第11章用Selenium框架測試網站
11.1 網站測試簡介208
11.2 用Scrapy + Selenium進行前端自動化測試208
11.3 本章小結235
第12章用Scrapy + Pandas進行數據分析
12.1 Python數據分析概述237
12.2 NumPy簡介及操作238
12.3 Matplotlib簡介及操作247
12.4 Pandas簡介及操作256
12.5 實戰項目：Scrapy爬取網站並用Pandas進行數據分析267
12.6 本章小結284