數據采集與預處理(第2版)

米洪 張鸰

  • 出版商: 人民郵電
  • 出版日期: 2026-06-01
  • 定價: $359
  • 售價: $358
  • 語言: 簡體中文
  • ISBN: 7115683077
  • ISBN-13: 9787115683076
  • 相關分類: Web-crawler 網路爬蟲
  • 下單後立即進貨 (約4週~6週)

  • 數據采集與預處理(第2版)-preview-1
數據采集與預處理(第2版)-preview-1

商品描述

本書以項目為引領,任務為驅動,圍繞企業級數據采集與預處理應用進行項目任務設計。全書共5個項目,包括數據采集與預處理準備、網絡爬蟲實踐、日誌數據采集實踐、使用Sqoop進行數據遷移、數據預處理實踐。本書全面地講述Scrapy、Flume、Sqoop、Kettle、pandas等技術,以及urllib、Selenium爬蟲基本庫和BeautifulSoup解析庫的相關知識與應用案例。

本書內容實用,可操作性強,語言精練、通俗易懂,可作為應用型本科、職業本科、高職高專大數據技術等專業的教材,也可作為大數據分析領域從業人員的參考書。

作者簡介

米洪,南京交通職業技術學院教授,江蘇省教學名師、江蘇省技術能手,江蘇省高校“青藍工程”優秀骨幹教師,全國高等職業院校雲計算、大數據賽項裁判員,先後主持江蘇省高等教育教改研究課題、江蘇省教育科學規劃課題、江蘇省現代教育技術研究課題等9項,發表北大核心論文10余篇,獲得發明專利5項,實用新型7項,軟件著作權多項,主編國家十三五、十四五規劃教材和江蘇省高等學校重點教材5部,指導江蘇省技能大賽榮獲一等獎5項,二等獎7項,江蘇省優秀畢業設計團隊獎2項。

目錄大綱

項目1 數據采集與預處理準備 1

任務1 認識數據采集技術,熟悉數據采集平臺 1

任務描述 1

任務目標 1

知識準備 1

任務實施 7

任務2 認識數據預處理技術 11

任務描述 11

任務目標 11

知識準備 11

任務實施 15

課後習題 17

項目2 網絡爬蟲實踐 18

任務1 使用urllib爬取北京公交線路信息 18

任務描述 18

任務目標 18

知識準備 18

任務實施 39

任務2 使用Selenium爬取淘寶網站信息 47

任務描述 47

任務目標 47

知識準備 47

任務實施 63

任務3 使用Scrapy爬取北京公交信息 67

任務描述 67

任務目標 68

知識準備 68

任務實施 70

任務4 實踐與拓展 76

任務描述 76

任務目標 76

課後習題 76

項目3 日誌數據采集實踐 79

任務1 Flume的安裝和配置 79

任務描述 79

任務目標 79

知識準備 80

任務實施 85

任務2 使用Flume采集數據並上傳到集群 94

任務描述 94

任務目標 94

知識準備 94

任務實施 97

任務3 實踐與拓展 104

任務描述 104

任務目標 105

課後習題 105

項目4 使用Sqoop進行數據遷移 106

任務1 使用Sqoop將數據導入HDFS 106

任務描述 106

任務目標 106

知識準備 106

任務實施 108

任務2 使用Sqoop將數據導入Hive 114

任務描述 114

任務目標 114

知識準備 114

任務實施 115

任務3 使用Sqoop將數據導出到MySQL 119

任務描述 119

任務目標 119

知識準備 119

任務實施 119

任務4 實踐與拓展 124

任務描述 124

任務目標 124

課後習題 124

項目5 數據預處理實踐 126

任務1 用Kettle進行數據預處理 126

任務描述 126

任務目標 126

知識準備 127

任務實施 131

任務2 用pandas進行數據預處理 162

任務描述 162

任務目標 162

知識準備 162

任務實施 178

任務3 用NLTK和jieba進行文本數據預處理 194

任務描述 194

任務目標 194

知識準備 194

任務實施 204

任務4 用Flume Interceptor對日誌信息進行數據預處理 216

任務描述 216

任務目標 216

知識準備 216

任務實施 219

任務5 實踐與拓展 228

任務描述 228

任務目標 228

課後習題 228