Python數據采集、預處理與可視化
呂雲翔,姚澤良,宗堅,楊壯,韓延剛,仇善召,朱英豪,張揚
相關主題
商品描述
"本書共5部分。第1部分(第1章)為基礎理論,概述大數據的基本概念、特征、發展歷史、生態系統及實際應用。第2部分(第2、3章)為數據采集,詳細介紹數據采集的基本概念、特征、方法和技術,並重點講解如何使用Python進行網絡數據采集。第3部分(第4、5章)為數據預處理,深入探討數據清理、數據集成、數據歸約、數據轉換等理論和技術,以及如何使用NumPy和Pandas這兩個強大的Python庫來進行數據預處理。第4部分(第6、7章)為數據可視化,講解數據可視化的發展歷史、分類和應用,並展示如何使用Matplotlib等Python庫來繪制各種類型的圖表。第5部分(第8~10章)為案例,展示使用Python進行數據采集、預處理與可視化的全過程。 本書既可以作為高等院校計算機及相關專業的教材,也可以作為軟件從業人員、計算機愛好者的學習指導用書。 "
作者簡介
呂雲翔,北京航空航天大學軟件學院副教授。具有多年的軟件開發、項目管理、計算機教學經驗,對IT行業具有較全面的認識,出版教材多部。目前研究領域包括:軟件工程、人工智能、大數據。
目錄大綱
目錄
第1部分基礎理論
第1章大數據概述
1.1大數據基礎
1.1.1大數據的基本概念
1.1.2大數據的5V特征
1.1.3大數據的發展歷程
1.2大數據生態系統
1.2.1Hadoop
1.2.2Spark
1.3大數據的實際應用
1.3.1大數據的應用領域
1.3.2大數據面臨的挑戰
思考與練習
章節實訓: 大數據軟件生態探索
第2部分數據采集
第2章數據采集基礎
2.1數據采集的基本概念和特征
2.1.1數據采集的基本概念
2.1.2數據采集的特征
2.2數據采集的方法
2.2.1數據庫采集
2.2.2系統日誌采集
2.2.3網絡數據采集
2.2.4傳感器采集
2.2.5眾包采集
2.3數據采集的技術
2.3.1網絡爬蟲
2.3.2數據抽取技術
2.4數據采集工具介紹
思考與練習
章節實訓: 利用Octoparse采集網站數據
第3章Python網絡數據采集
3.1網絡爬蟲基礎
3.1.1HTML
3.1.2HTTP
3.1.3JavaScript
3.1.4Robots協議
3.2Python爬蟲基礎庫編寫爬蟲
3.2.1Requests庫采集網頁
3.2.2BeautifulSoup庫解析網頁
3.3Scrapy框架構建爬蟲
3.3.1Scrapy框架簡介
3.3.2Scrapy框架安裝
3.3.3Scrapy框架爬蟲編寫
3.4Selenium庫模擬人工爬蟲
3.4.1Selenium庫簡介
3.4.2Selenium庫與瀏覽器驅動安裝
3.4.3Selenium庫爬蟲編寫
思考與練習
章節實訓: 股票報告爬蟲編寫
第3部分數據預處理
第4章數據預處理基礎
4.1概述
4.1.1數據預處理的意義
4.1.2數據預處理的分類
4.2數據清理
4.2.1內容格式錯誤數據處理
4.2.2缺失值處理
4.2.3噪聲數據處理
4.2.4重復數據處理
4.3數據集成
4.3.1實體識別問題
4.3.2冗余問題
4.3.3沖突數據值的檢測與處理
4.4數據歸約
4.4.1維度歸約
4.4.2數量歸約
4.4.3數據壓縮
4.5數據轉換
4.5.1數據離散化
4.5.2數據標準化
4.5.3對數變換與指數變換
4.5.4數據脫敏
思考與練習
章節實訓: 文本數據預處理
第5章Python數據預處理
5.1科學計算庫NumPy
5.1.1NumPy介紹與安裝
5.1.2NumPy的數據結構與索引
5.1.3NumPy的數據類型與轉換
5.1.4NumPy的數學運算
5.1.5NumPy常用的數學函數
5.1.6Numpy缺失值、異常值和重復值的處理
5.2數據分析庫Pandas
5.2.1Pandas介紹與安裝
5.2.2Pandas的數據結構與索引
5.2.3Pandas的數據類型與轉換
5.2.4Pandas的數據輸入與輸出
5.2.5Pandas常用的數學函數
5.2.6Pandas缺失值、異常值和重復值處理
5.2.7apply()函數
5.2.8Pandas數據分組
5.2.9Pandas數據合並
思考與練習
章節實訓: 空氣質量分析
第4部分數據可視化
第6章數據可視化基礎
6.1數據可視化概述
6.1.1數據可視化的發展歷史
6.1.2數據可視化的分類
6.2時間數據可視化
6.2.1時間數據可視化的方法
6.2.2時間數據可視化的應用
6.3比例數據可視化
6.3.1比例數據可視化的方法
6.3.2比例數據可視化的應用
6.4關系數據可視化
6.4.1關系數據可視化的方法
6.4.2關系數據可視化的應用
6.5文本數據可視化
6.5.1文本數據可視化的方法
6.5.2文本數據可視化的應用
6.6復雜數據可視化
6.6.1復雜數據可視化的方法
6.6.2復雜數據可視化的應用
思考與練習
章節實訓: 可視化圖表繪制
第7章Python數據可視化
7.1Python數據可視化庫概述
7.1.1Matplotlib
7.1.2Seaborn
7.1.3pyecharts
7.1.4NetworkX
7.1.5wordcloud
7.2Matplotlib圖表繪制
7.2.1Matplotlib安裝
7.2.2Matplotlib繪圖
7.2.3Matplotlib繪圖參數設置
7.3Seaborn圖表繪制
7.3.1Seaborn安裝
7.3.2Seaborn繪圖
7.3.3Seaborn繪圖參數設置
7.4pyecharts圖表繪制
7.4.1pyecharts安裝
7.4.2pyecharts繪圖
7.4.3pyecharts繪圖參數設置
7.5NetworkX圖表繪制
7.5.1NetworkX安裝
7.5.2NetworkX繪圖
7.5.3NetworkX繪圖參數設置
7.6wordcloud圖表繪制
7.6.1wordcloud安裝
7.6.2wordcloud繪圖
7.6.3wordcloud繪圖參數設置
思考與練習
章節實訓: 繪制可視化圖表
第5部分應用案例
第8章案例: 用戶消費行為分析
8.1RFM模型簡介
8.2數據讀入
8.3數據清洗和預處理
8.3.1數據清洗
8.3.2數據預處理
8.4RFM統計量計算
8.5RFM歸類
8.6結果保存
8.7可視化結果
第9章案例: 爬取二手房房價數據並繪制熱力圖
9.1數據抓取
9.1.1分析網頁
9.1.2地址轉換成經緯度
9.1.3編寫代碼
9.1.4數據下載結果
9.2繪制熱力圖
第10章案例: 使用Spark實現數據統計分析及性能優化
10.1背景
10.2系統架構
10.2.1總體方案
10.2.2詳細設計
10.2.3優化設計
10.3具體實現
10.3.1數據獲取
10.3.2數據可視化
10.4性能優化
10.4.1讀取優化
10.4.2查詢優化
10.4.3Spark參數級優化