大數據預處理技術

蔡茜,陳覦

  • 出版商: 電子工業
  • 出版日期: 2023-11-01
  • 定價: $252
  • 售價: 8.5$214
  • 語言: 簡體中文
  • 頁數: 212
  • ISBN: 712145419X
  • ISBN-13: 9787121454196
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

商品描述

本書圍繞大數據預處理業務背景及相關技術,以學習情境的方式,首先介紹了使用 Python、Pandas對各種數據源的讀寫,然後介紹了數據的清洗、集成、規約、變換四個處理數據方式,最後介紹了使用Kettle工具和MapReduce編程對數據進行處理的技術,通過理論結合實際、循序漸進的學習方式,讓讀者學習並掌握大數據預處理技術及應用。本書理論分析相對較少,側重動手實踐,適合應用型本科、高職高專大數據技術專業學生和希望快速進入大數據領域的讀者參考使用。

目錄大綱

導 言
單元1 數據讀寫
學習情境1 使用Python讀寫職業能力大數據分析平臺【崗位】數據
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
學習情境2 使用Pandas讀寫職業能力大數據分析平臺【技能】數據
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
單元2 數據清洗
學習情境3 使用正則表達式從網頁中提取招聘聯系人的郵箱地址
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
學習情境4 使用Pandas對職業能力大數據分析平臺【工資】表進行清洗
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
單元3 數據集成
學習情境5 使用Pandas實現對職業能力大數據分析平臺多個學生信息
        數據源進行集成
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
單元4 數據規約
學習情境6 使用NumPy+Pandas實現對工資數據進行數量規約
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
單元5 數據變換
學習情境7 使用Pandas+Sklearn對學生成績實現數據規範化
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
單元6 Kettle工具使用
學習情境8 使用ETL工具Kettle對職業能力大數據分析平臺學生信息
        數據進行清洗
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
單元7 MapReduce數據處理
學習情境9 使用MapReduce合並職業能力大數據分析平臺【技能】數據
學習情境描述
學習目標
任務書
獲取信息
工作計劃
進行決策
知識準備
相關案例
工作實施
評價反饋
拓展思考
參考文獻