大數據采集與清洗(微課版)

阮宗利 陳華 柳毓松

  • 出版商: 人民郵電
  • 出版日期: 2025-11-01
  • 售價: $420
  • 語言: 簡體中文
  • 頁數: 286
  • ISBN: 7115669848
  • ISBN-13: 9787115669841
  • 相關分類: Web-crawler 網路爬蟲
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書詳細介紹大數據采 集與清洗的相關知識和技術 ,共9章,分別是概述、網 絡爬蟲基礎、網頁數據抓取 、緩存下載頁面、並發/並 行爬取、用Selenium抓取動 態內容、Scrapy爬蟲框架及 其應用、大數據平臺系統日 誌采集、pandas數據清洗 。本書大體上由數據采集( 第2~8章)和數據清洗(第 9章)兩部分內容構成,以 Python作為編程語言。數據 采集部分以Web數據采集為 主,也涉及Hadoop大數據 平臺的數據采集,內容由淺 入深,循序漸進,理論與實 踐相結合,幫助讀者理解和 掌握數據采集的相關技術; 數據清洗部分主要介紹 pandas庫的使用,幫助讀 者掌握數據清洗的方法。本 書每章都有配套的習題,有 助於讀者鞏固所學知識。 本書可作為高校數據科 學與大數據技術、信息管理 與信息系統等專業相關課程 的教材,也可作為大數據工 程師的 手冊,還可作為 網絡爬蟲愛好者和計算機領 域的技術人員的參考書。

目錄大綱

第1章 概述
1.1 大數據來源
1.2 數據采集方法與基本流程
1.2.1 數據采集方法
1.2.2 數據采集基本流程
1.3 數據清洗方法與基本流程
1.3.1 數據清洗方法
1.3.2 數據清洗工具
1.3.3 數據清洗基本流程
1.4 本書主要內容及主要案例
1.4.1 主要內容
1.4.2 主要案例
1.4.3 編程工具
1.5 本章小結
1.6 習題
第2章 網絡爬蟲基礎
2.1 網絡爬蟲簡介
2.1.1 網絡爬蟲分類
2.1.2 網絡爬蟲應遵守的基本準則
2.2 調研目標網站
2.2.1 了解目標網站所采用的技術與審查網頁元素
2.2.2 了解網站結構與規模
2.2.3 分析robots.txt文件
2.2.4 分析網站地圖文件sitemap.xml
2.3 使用urllib包下載網頁
2.3.1 下載頁面HTML源代碼
2.3.2 設置字符編碼
2.3.3 存儲HTML源代碼至文件
2.3.4 異常處理
2.3.5 下載重試
2.3.6 設置用戶代理
2.3.7 獲取網頁字符集
2.4 使用requests包下載網頁
2.4.1 requests包簡介
2.4.2 基於requests包的頁面下載器
2.5 網絡爬蟲的實現
2.5.1 站點地圖爬蟲
2.5.2 鏈接模板爬蟲
2.5.3 鏈接跟蹤爬蟲
2.6 對爬蟲限速
2.6.1 爬蟲限速器Throttle類
2.6.2 限速器安裝到鏈接跟蹤爬蟲
2.7 讓爬蟲遵守站點robots協議
2.7.1 使用urllib.robotparser模塊解析robots.txt文件
2.7.2 為鏈接跟蹤爬蟲添加robot解析器
2.8 本章小結
2.9 習題
第3章 網頁數據抓取
3.1 了解HTML
3.1.1 什麼是HTML
本書詳細介紹大數據采 集與清洗的相關知識和技術 ,共9章,分別是概述、網 絡爬蟲基礎、網頁數據抓取 、緩存下載頁面、並發/並 行爬取、用Selenium抓取動 態內容、Scrapy爬蟲框架及 其應用、大數據平臺系統日 誌采集、pandas數據清洗 。本書大體上由數據采集( 第2~8章)和數據清洗(第 9章)兩部分內容構成,以 Python作為編程語言。數據 采集部分以Web數據采集為 主,也涉及Hadoop大數據 平臺的數據采集,內容由淺 入深,循序漸進,理論與實 踐相結合,幫助讀者理解和 掌握數據采集的相關技術; 數據清洗部分主要介紹 pandas庫的使用,幫助讀 者掌握數據清洗的方法。本 書每章都有配套的習題,有 助於讀者鞏固所學知識。 本書可作為高校數據科 學與大數據技術、信息管理 與信息系統等專業相關課程 的教材,也可作為大數據工 程師的 手冊,還可作為 網絡爬蟲愛好者和計算機領 域的技術人員的參考書。