An Introduction to Web Mining: With Applications in R
暫譯: 網路挖掘入門:R語言應用實例
Matter, Ulrich
- 出版商: Springer
- 出版日期: 2025-08-08
- 售價: $4,300
- 貴賓價: 9.5 折 $4,085
- 語言: 英文
- 頁數: 251
- 裝訂: Quality Paper - also called trade paper
- ISBN: 3031966376
- ISBN-13: 9783031966378
-
相關分類:
Web-crawler 網路爬蟲
海外代購書籍(需單獨結帳)
相關主題
商品描述
- scrape static and dynamic/JavaScript-heavy websites
- use web APIs for structured data extraction from web sources
- build fault-tolerant crawlers and cloud-based scraping pipelines
- navigate CAPTCHAs, rate limits, and authentication hurdles
- integrate AI-driven tools to speed up every stage of the workflow
- apply ethical, legal, and scientific guidelines to their web mining activities
商品描述(中文翻譯)
本書專注於網路挖掘的藝術與科學——展示如何將世界上最大的資訊來源轉化為結構化、可供研究的數據。作者基於多年教授網路挖掘研究生課程的經驗,以及在網路挖掘背景下進行的多個大型研究項目,提供了關鍵網路技術的清晰解釋,並結合實用的 R 課程,這些課程在現實世界中有效運作,並隨著網路的演變而持續有效。
透過本書,讀者將學會如何:
- 擷取靜態和動態/重 JavaScript 的網站
- 使用網路 API 從網路來源提取結構化數據
- 建立容錯的爬蟲和基於雲端的擷取管道
- 瀏覽 CAPTCHA、速率限制和身份驗證障礙
- 整合 AI 驅動的工具以加速工作流程的每個階段
- 將倫理、法律和科學指導方針應用於其網路挖掘活動
第一部分解釋了為什麼網路數據重要,並引導讀者在 R 中進行第一次「你好擷取」的實作,同時介紹 HTML、HTTP 和 CSS。第二部分探討現代網路的運作方式,逐步展示如何從擷取靜態頁面轉向從 API 和 JavaScript 驅動的網站收集數據。第三部分專注於擴展:建立可靠的爬蟲、處理登錄和 CAPTCHA、使用雲端資源以及添加 AI 助手。第四部分則關注倫理、法律和研究標準,提供檢查清單和案例研究,幫助讀者做出負責任的選擇。這些部分共同提供了一條從小型實驗到大型項目的清晰路徑。
這本寶貴的指南是為廣泛的讀者群體而寫——從剛開始接觸數據科學的研究生到經驗豐富的經濟學、社會科學、商業和公共政策的研究人員和分析師。對於任何有興趣從網路中提取洞見的人來說,無論是在學術界、產業界還是公共部門,這將是一本持久的參考書。
作者簡介
作者簡介(中文翻譯)
烏爾里希·馬特是伯恩應用科學大學的應用數據科學教授,以及聖加侖大學的經濟學附屬教授。他的主要研究興趣位於數據科學、政治經濟學和媒體經濟學的交集處。