網站擷取｜使用 Python, 3/e (Web Scraping with Python, 3/e)

Name: 網站擷取｜使用 Python, 3/e (Web Scraping with Python, 3/e)
Price: 568 TWD
Availability: InStock
Author: Ryan Mitchell 著
ISBN: 6264250945

Ryan Mitchell 著賴屹民譯

預覽內頁

出版商: 歐萊禮
出版日期: 2025-08-27
定價: $720
售價: 7.9 折 $568
語言: 繁體中文
頁數: 356
裝訂: 平裝
ISBN: 6264250945
ISBN-13: 9786264250948
相關分類: Web-crawler 網路爬蟲
此書翻譯自: Web Scraping with Python: Data Extraction from the Modern Web, 3/e (Paperback)

立即出貨 (庫存 > 10)

網站擷取｜使用 Python, 3/e (Web Scraping with Python, 3/e)-preview-1

買這商品的人也買了...

~~$580~~ $458

精通 JavaScript, 3/e (Eloquent JavaScript, 3/e)
~~$479~~ $455

GitLab CI/CD 從入門到實戰
~~$880~~ $695

資料視覺化｜使用 Python 與 JavaScript, 2/e (Data Visualization with Python and JavaScript: Scrape, Clean, Explore, and Transform Your Data, 2/e)
~~$720~~ $475

輕鬆學會 Android Kotlin 實作開發：精心設計 24個 Lab 讓你快速上手, 3/e
~~$850~~ $561

快速精通 iOS 18 程式設計：從零開始活用 Swift 與 SwiftUI 開發技巧
~~$980~~ $774

深入淺出軟體架構 (Head First Software Architecture)
~~$880~~ $748

AI Vision × LLM 電腦視覺應用聖經：OpenCV × YOLO × Ollama 解鎖多模態全攻略
~~$920~~ $726

Go 學習手冊｜寫出符合慣例的 Go程式, 2/e (Learning Go: An Idiomatic Approach to Real-World Go Programming, 2/e)
~~$690~~ $538

軟體測試修練指南：我獨自升級的實戰心法（iThome鐵人賽系列書)
~~$880~~ $695

生成式 AI 提示工程｜以前瞻性的設計打造穩定、可信任的 AI 解決方案 (Prompt Engineering for Generative AI: Future-Proof Inputs for Reliable AI Outputs)
~~$760~~ $600

JavaScript 重修就好
~~$1,380~~ $1,090

網路可程式性與自動化｜新世代網路工程師必備技能, 2/e (Network Programmability and Automation: Skills for the Next-Generation Network Engineer, 2/e)
~~$600~~ $396

RAG × LangChain 整合應用：從問診機器人開始，打造可信任的 AI 系統 (iThome鐵人賽系列書)
~~$599~~ $473

AI 加持！Google Sheets 超級工作流
~~$700~~ $525

軟體工程師的晉升之路｜全方位升遷攻略，揭示工程師職涯成長的核心策略！
~~$1,200~~ $948

AI 工程｜從基礎模型建構應用 (AI Engineering : Building Applications with Foundation Models)
~~$680~~ $530

AI Agent 奇幻旅程：MCP 通往異世界金鑰（含最新 OpenAI GPT-5 範例）
~~$750~~ $592

本地端 Ollama × LangChain × LangGraph × LangSmith 開發手冊：打造 RAG、Agent、SQL 應用
~~$650~~ $455

Browser Web API 攻略大全：從開箱即用的實作範例開始，逐步掌握開發技巧（iThome鐵人賽系列書）
~~$750~~ $592

Ollama 本地 AI 全方位攻略：命令列功能、五大主題測試、RAG、Vibe Coding、MCP，一本搞定所有實戰應用
~~$880~~ $695

Vibe Coding - Cursor 教戰手冊
~~$580~~ $458

白話 Web 應用程式安全：洞悉駭客手法與防禦攻略 (Grokking Web Application Security)
~~$680~~ $537

從試算表到資料平台：重構資料工程的技術與團隊
~~$780~~ $616

建構可擴展系統｜設計分散式架構 (Foundations of Scalable Systems: Designing Distributed Architectures)
~~$720~~ $568

Think Python｜學習程式設計的思考概念, 3/e (Think Python: How to Think Like a Computer Scientist, 3/e)

商品描述

從現代網頁爬取資料

爬取×解析×轉換──讓資料收集快、準、全，告別繁瑣工作！

從HTML到API、從圖片到文字，使用Python做網頁爬取，能廣泛應用於市場預測、機器翻譯甚至是醫學診斷，實用性極高。因此，無論在哪一個領域，網路爬蟲都可以更有效地應用於商務、分析、提升生產效能，開創新機會。

「本書是內容豐富的傑作，可幫助讀者有意識地、有效地抓取網頁資料，值得推薦給想從網站爬取資料、打算建立網站和分享資料的每一個人。」
—Michael Hopkins
P.Geo., PMP

如果說程式設計像魔法一樣，那麼「網站擷取」無疑就是一種巫術，只要寫一個簡單的自動程式，就可以用它來查詢網頁伺服器、請求資料、解析資料，並提取所需資訊。本書第三版經過徹底翻新，不僅介紹網路爬取，也全面性地教你如何從現代網頁抓取幾乎每一種類型的資料。

本書的第一部分專門討論網路爬取機制，包括使用 Python 從網頁伺服器請求資訊、初步處理伺服器的回應，以及自動和網站進行互動。第二部分則探討更具體的工具和應用，以應對可能遇到的各種網頁爬取情境。

本書教你如何：
•解析複雜的HTML網頁
•使用Scrapy框架來開發爬蟲
•儲存你抓到的資料
•從文件中讀取和提取資料
•清理格式不嚴僅的資料，以及將之正規化
•讀寫自然語言
•爬取表單與登入網站
•爬取JavaScript和 API
•使用和編寫「圖片轉文字」軟體
•避免爬網陷阱和反機器人封鎖
•使用爬蟲來測試自己的網站

<序>

電腦程式設計對尚未掌握技巧的人來說如同一種魔法。如果說程式設計就像魔法，那麼網路抓取就像巫術了，所謂的巫術，就是輕鬆寫意地施展魔法來實現令人印象深刻且實用的壯舉。

在我擔任軟體工程師的時期，很少程式設計實務可以像網路爬取一樣，讓程式設計師和外行人都備感期待。寫一個簡單的自主程式來收集資料，並將那些資料顯示在終端機上或儲存在資料庫裡並非難事，但無論你完成幾次，那種令人振奮的體驗和無限可能的感受都不會消失。

遺憾的是，當我和其他程式設計師討論網路爬取時，他們依然對這一門技術有一些誤解與困惑。有些人不確定這樣做是否合法（它是合法的），或不知道如何處理大量使用 JavaScript 的網頁，或需要登入才能爬取的情況。很多人不明白如何啟動大型的網路爬蟲專案，甚至不知道該去哪裡尋找資料。本書的目標是解答這些常見的疑問與誤解，並提供大多數網路爬取任務的完整指南。

網路爬取是一個多樣且變化迅速的領域，本書試著提供高階的概念和具體的範例，希望涵蓋你可能會遇到的各種資料收集專案。在整本書中，我提供許多程式來示範這些概念，並讓你實際操作它們；所有程式範例都可以在 GitHub 上閱讀和下載。這些範例程式可以自由使用和修改，無論你是否註明來源（當然，若能註明來源，我將感激不盡）。

作者簡介

Ryan Mitchell 是 GLG 的高級軟體工程師，也是網路抓取、網路安全，和資料科學專家。她曾經主持多場研討會，並在許多活動中發表演說，包括 Data Day 和 DEF CON。此外，她也教導網路程式設計和資料科學，並在多家機構中提供相關課程的諮詢服務。Ryan 也是 Instant Web Scraping with Java（Packt Publishing）的作者。

目錄大綱

第一部分建構爬蟲
第 1 章網際網路的運作方式
第 2 章網頁爬蟲的法律問題與道德原則
第 3 章網頁爬蟲的應用
第 4 章寫出你的第一個網路爬蟲
第 5 章進階 HTML 解析
第 6 章編寫網路爬蟲
第 7 章網頁爬取模型
第 8 章 Scrapy
第 9 章儲存資料

第二部分進階抓取
第 10 章讀取文件
第 11 章處理髒資料
第 12 章讀寫自然語言
第 13 章藉由表單與登入來爬網
第 14 章抓取 JavaScript
第 15 章透過 API 來爬取資料
第 16 章圖片處理與文字辨識
第 17 章避免抓取陷阱
第 18 章使用爬蟲來測試你的網站
第 19 章平行爬網
第 20 章網路爬蟲代理