大數據采集與清洗(微課版)

阮宗利陳華柳毓松

出版商: 人民郵電
出版日期: 2025-11-01
售價: $420
語言: 簡體中文
頁數: 286
ISBN: 7115669848
ISBN-13: 9787115669841
相關分類: Web-crawler 網路爬蟲

下單後立即進貨 (約4週~6週)

商品描述

本書詳細介紹大數據采集與清洗的相關知識和技術，共9章，分別是概述、網絡爬蟲基礎、網頁數據抓取、緩存下載頁面、並發／並行爬取、用Selenium抓取動態內容、Scrapy爬蟲框架及其應用、大數據平臺系統日誌采集、pandas數據清洗。本書大體上由數據采集（第2～8章）和數據清洗（第 9章）兩部分內容構成，以 Python作為編程語言。數據采集部分以Web數據采集為主，也涉及Hadoop大數據平臺的數據采集，內容由淺入深，循序漸進，理論與實踐相結合，幫助讀者理解和掌握數據采集的相關技術；數據清洗部分主要介紹 pandas庫的使用，幫助讀者掌握數據清洗的方法。本書每章都有配套的習題，有助於讀者鞏固所學知識。本書可作為高校數據科學與大數據技術、信息管理與信息系統等專業相關課程的教材，也可作為大數據工程師的手冊，還可作為網絡爬蟲愛好者和計算機領域的技術人員的參考書。

目錄大綱

第1章概述
1.1 大數據來源
1.2 數據采集方法與基本流程
1.2.1 數據采集方法
1.2.2 數據采集基本流程
1.3 數據清洗方法與基本流程
1.3.1 數據清洗方法
1.3.2 數據清洗工具
1.3.3 數據清洗基本流程
1.4 本書主要內容及主要案例
1.4.1 主要內容
1.4.2 主要案例
1.4.3 編程工具
1.5 本章小結
1.6 習題
第2章網絡爬蟲基礎
2.1 網絡爬蟲簡介
2.1.1 網絡爬蟲分類
2.1.2 網絡爬蟲應遵守的基本準則
2.2 調研目標網站
2.2.1 了解目標網站所采用的技術與審查網頁元素
2.2.2 了解網站結構與規模
2.2.3 分析robots.txt文件
2.2.4 分析網站地圖文件sitemap.xml
2.3 使用urllib包下載網頁
2.3.1 下載頁面HTML源代碼
2.3.2 設置字符編碼
2.3.3 存儲HTML源代碼至文件
2.3.4 異常處理
2.3.5 下載重試
2.3.6 設置用戶代理
2.3.7 獲取網頁字符集
2.4 使用requests包下載網頁
2.4.1 requests包簡介
2.4.2 基於requests包的頁面下載器
2.5 網絡爬蟲的實現
2.5.1 站點地圖爬蟲
2.5.2 鏈接模板爬蟲
2.5.3 鏈接跟蹤爬蟲
2.6 對爬蟲限速
2.6.1 爬蟲限速器Throttle類
2.6.2 限速器安裝到鏈接跟蹤爬蟲
2.7 讓爬蟲遵守站點robots協議
2.7.1 使用urllib.robotparser模塊解析robots.txt文件
2.7.2 為鏈接跟蹤爬蟲添加robot解析器
2.8 本章小結
2.9 習題
第3章網頁數據抓取
3.1 了解HTML
3.1.1 什麼是HTML
本書詳細介紹大數據采集與清洗的相關知識和技術，共9章，分別是概述、網絡爬蟲基礎、網頁數據抓取、緩存下載頁面、並發／並行爬取、用Selenium抓取動態內容、Scrapy爬蟲框架及其應用、大數據平臺系統日誌采集、pandas數據清洗。本書大體上由數據采集（第2～8章）和數據清洗（第 9章）兩部分內容構成，以 Python作為編程語言。數據采集部分以Web數據采集為主，也涉及Hadoop大數據平臺的數據采集，內容由淺入深，循序漸進，理論與實踐相結合，幫助讀者理解和掌握數據采集的相關技術；數據清洗部分主要介紹 pandas庫的使用，幫助讀者掌握數據清洗的方法。本書每章都有配套的習題，有助於讀者鞏固所學知識。本書可作為高校數據科學與大數據技術、信息管理與信息系統等專業相關課程的教材，也可作為大數據工程師的手冊，還可作為網絡爬蟲愛好者和計算機領域的技術人員的參考書。