數據采集與預處理(第2版)
米洪 張鸰
- 出版商: 人民郵電
- 出版日期: 2026-06-01
- 定價: $359
- 售價: $358
- 語言: 簡體中文
- ISBN: 7115683077
- ISBN-13: 9787115683076
-
相關分類:
Web-crawler 網路爬蟲
下單後立即進貨 (約4週~6週)
商品描述
本書以項目為引領,任務為驅動,圍繞企業級數據采集與預處理應用進行項目任務設計。全書共5個項目,包括數據采集與預處理準備、網絡爬蟲實踐、日誌數據采集實踐、使用Sqoop進行數據遷移、數據預處理實踐。本書全面地講述Scrapy、Flume、Sqoop、Kettle、pandas等技術,以及urllib、Selenium爬蟲基本庫和BeautifulSoup解析庫的相關知識與應用案例。
本書內容實用,可操作性強,語言精練、通俗易懂,可作為應用型本科、職業本科、高職高專大數據技術等專業的教材,也可作為大數據分析領域從業人員的參考書。
作者簡介
米洪,南京交通職業技術學院教授,江蘇省教學名師、江蘇省技術能手,江蘇省高校“青藍工程”優秀骨幹教師,全國高等職業院校雲計算、大數據賽項裁判員,先後主持江蘇省高等教育教改研究課題、江蘇省教育科學規劃課題、江蘇省現代教育技術研究課題等9項,發表北大核心論文10余篇,獲得發明專利5項,實用新型7項,軟件著作權多項,主編國家十三五、十四五規劃教材和江蘇省高等學校重點教材5部,指導江蘇省技能大賽榮獲一等獎5項,二等獎7項,江蘇省優秀畢業設計團隊獎2項。
目錄大綱
項目1 數據采集與預處理準備 1
任務1 認識數據采集技術,熟悉數據采集平臺 1
任務描述 1
任務目標 1
知識準備 1
任務實施 7
任務2 認識數據預處理技術 11
任務描述 11
任務目標 11
知識準備 11
任務實施 15
課後習題 17
項目2 網絡爬蟲實踐 18
任務1 使用urllib爬取北京公交線路信息 18
任務描述 18
任務目標 18
知識準備 18
任務實施 39
任務2 使用Selenium爬取淘寶網站信息 47
任務描述 47
任務目標 47
知識準備 47
任務實施 63
任務3 使用Scrapy爬取北京公交信息 67
任務描述 67
任務目標 68
知識準備 68
任務實施 70
任務4 實踐與拓展 76
任務描述 76
任務目標 76
課後習題 76
項目3 日誌數據采集實踐 79
任務1 Flume的安裝和配置 79
任務描述 79
任務目標 79
知識準備 80
任務實施 85
任務2 使用Flume采集數據並上傳到集群 94
任務描述 94
任務目標 94
知識準備 94
任務實施 97
任務3 實踐與拓展 104
任務描述 104
任務目標 105
課後習題 105
項目4 使用Sqoop進行數據遷移 106
任務1 使用Sqoop將數據導入HDFS 106
任務描述 106
任務目標 106
知識準備 106
任務實施 108
任務2 使用Sqoop將數據導入Hive 114
任務描述 114
任務目標 114
知識準備 114
任務實施 115
任務3 使用Sqoop將數據導出到MySQL 119
任務描述 119
任務目標 119
知識準備 119
任務實施 119
任務4 實踐與拓展 124
任務描述 124
任務目標 124
課後習題 124
項目5 數據預處理實踐 126
任務1 用Kettle進行數據預處理 126
任務描述 126
任務目標 126
知識準備 127
任務實施 131
任務2 用pandas進行數據預處理 162
任務描述 162
任務目標 162
知識準備 162
任務實施 178
任務3 用NLTK和jieba進行文本數據預處理 194
任務描述 194
任務目標 194
知識準備 194
任務實施 204
任務4 用Flume Interceptor對日誌信息進行數據預處理 216
任務描述 216
任務目標 216
知識準備 216
任務實施 219
任務5 實踐與拓展 228
任務描述 228
任務目標 228
課後習題 228

