Python數據采集、預處理與可視化

呂雲翔,姚澤良,宗堅,楊壯,韓延剛,仇善召,朱英豪,張揚

  • 出版商: 清華大學
  • 出版日期: 2025-07-01
  • 售價: $294
  • 語言: 簡體中文
  • 頁數: 187
  • ISBN: 7302695423
  • ISBN-13: 9787302695424
  • 相關分類: Python
  • 下單後立即進貨 (約4週~6週)

  • Python數據采集、預處理與可視化-preview-1
  • Python數據采集、預處理與可視化-preview-2
  • Python數據采集、預處理與可視化-preview-3
  • Python數據采集、預處理與可視化-preview-4
  • Python數據采集、預處理與可視化-preview-5
  • Python數據采集、預處理與可視化-preview-6
  • Python數據采集、預處理與可視化-preview-7
Python數據采集、預處理與可視化-preview-1

相關主題

商品描述

"本書共5部分。第1部分(第1章)為基礎理論,概述大數據的基本概念、特征、發展歷史、生態系統及實際應用。第2部分(第2、3章)為數據采集,詳細介紹數據采集的基本概念、特征、方法和技術,並重點講解如何使用Python進行網絡數據采集。第3部分(第4、5章)為數據預處理,深入探討數據清理、數據集成、數據歸約、數據轉換等理論和技術,以及如何使用NumPy和Pandas這兩個強大的Python庫來進行數據預處理。第4部分(第6、7章)為數據可視化,講解數據可視化的發展歷史、分類和應用,並展示如何使用Matplotlib等Python庫來繪制各種類型的圖表。第5部分(第8~10章)為案例,展示使用Python進行數據采集、預處理與可視化的全過程。 本書既可以作為高等院校計算機及相關專業的教材,也可以作為軟件從業人員、計算機愛好者的學習指導用書。 "

作者簡介

呂雲翔,北京航空航天大學軟件學院副教授。具有多年的軟件開發、項目管理、計算機教學經驗,對IT行業具有較全面的認識,出版教材多部。目前研究領域包括:軟件工程、人工智能、大數據。

目錄大綱

目錄

 

第1部分基礎理論

 

第1章大數據概述

 

1.1大數據基礎

 

1.1.1大數據的基本概念

 

1.1.2大數據的5V特征

 

1.1.3大數據的發展歷程

 

1.2大數據生態系統

 

1.2.1Hadoop

 

1.2.2Spark

 

1.3大數據的實際應用

 

1.3.1大數據的應用領域

 

1.3.2大數據面臨的挑戰

 

思考與練習

 

章節實訓: 大數據軟件生態探索

 

第2部分數據采集

 

第2章數據采集基礎

 

2.1數據采集的基本概念和特征

 

2.1.1數據采集的基本概念

 

2.1.2數據采集的特征

 

2.2數據采集的方法

 

2.2.1數據庫采集

 

2.2.2系統日誌采集

 

2.2.3網絡數據采集

 

2.2.4傳感器采集

 

2.2.5眾包采集

 

2.3數據采集的技術

 

2.3.1網絡爬蟲

 

2.3.2數據抽取技術

 

2.4數據采集工具介紹

 

思考與練習

 

章節實訓: 利用Octoparse采集網站數據

 

第3章Python網絡數據采集

 

3.1網絡爬蟲基礎

 

3.1.1HTML

 

3.1.2HTTP

 

3.1.3JavaScript

 

3.1.4Robots協議

 

3.2Python爬蟲基礎庫編寫爬蟲

 

3.2.1Requests庫采集網頁

 

3.2.2BeautifulSoup庫解析網頁

 

3.3Scrapy框架構建爬蟲

 

3.3.1Scrapy框架簡介

 

3.3.2Scrapy框架安裝

 

3.3.3Scrapy框架爬蟲編寫

 

3.4Selenium庫模擬人工爬蟲

 

3.4.1Selenium庫簡介

 

3.4.2Selenium庫與瀏覽器驅動安裝

 

3.4.3Selenium庫爬蟲編寫

 

思考與練習

 

章節實訓: 股票報告爬蟲編寫

 

第3部分數據預處理

 

第4章數據預處理基礎

 

4.1概述

 

4.1.1數據預處理的意義

 

4.1.2數據預處理的分類

 

4.2數據清理

 

4.2.1內容格式錯誤數據處理

 

4.2.2缺失值處理

 

4.2.3噪聲數據處理

 

4.2.4重復數據處理

 

4.3數據集成

 

4.3.1實體識別問題

 

4.3.2冗余問題

 

4.3.3沖突數據值的檢測與處理

 

4.4數據歸約

 

4.4.1維度歸約

 

4.4.2數量歸約

 

4.4.3數據壓縮

 

4.5數據轉換

 

4.5.1數據離散化

 

4.5.2數據標準化

 

4.5.3對數變換與指數變換

 

4.5.4數據脫敏

 

思考與練習

 

章節實訓: 文本數據預處理

 

第5章Python數據預處理

 

5.1科學計算庫NumPy

 

5.1.1NumPy介紹與安裝

 

5.1.2NumPy的數據結構與索引

 

5.1.3NumPy的數據類型與轉換

 

5.1.4NumPy的數學運算

 

5.1.5NumPy常用的數學函數

 

5.1.6Numpy缺失值、異常值和重復值的處理

 

5.2數據分析庫Pandas

 

5.2.1Pandas介紹與安裝

 

5.2.2Pandas的數據結構與索引

 

5.2.3Pandas的數據類型與轉換

 

5.2.4Pandas的數據輸入與輸出

 

5.2.5Pandas常用的數學函數

 

5.2.6Pandas缺失值、異常值和重復值處理

 

5.2.7apply()函數

 

5.2.8Pandas數據分組

 

5.2.9Pandas數據合並

 

思考與練習

 

章節實訓: 空氣質量分析

 

第4部分數據可視化

 

第6章數據可視化基礎

 

6.1數據可視化概述

 

6.1.1數據可視化的發展歷史

 

6.1.2數據可視化的分類

 

6.2時間數據可視化

 

6.2.1時間數據可視化的方法

 

6.2.2時間數據可視化的應用

 

6.3比例數據可視化

 

6.3.1比例數據可視化的方法

 

6.3.2比例數據可視化的應用

 

6.4關系數據可視化

 

6.4.1關系數據可視化的方法

 

6.4.2關系數據可視化的應用

 

6.5文本數據可視化

 

6.5.1文本數據可視化的方法

 

6.5.2文本數據可視化的應用

 

6.6復雜數據可視化

 

6.6.1復雜數據可視化的方法

 

6.6.2復雜數據可視化的應用

 

思考與練習

 

章節實訓: 可視化圖表繪制

 

第7章Python數據可視化

 

7.1Python數據可視化庫概述

 

7.1.1Matplotlib

 

7.1.2Seaborn

 

7.1.3pyecharts

 

7.1.4NetworkX

 

7.1.5wordcloud

 

7.2Matplotlib圖表繪制

 

7.2.1Matplotlib安裝

 

7.2.2Matplotlib繪圖

 

7.2.3Matplotlib繪圖參數設置

 

7.3Seaborn圖表繪制

 

7.3.1Seaborn安裝

 

7.3.2Seaborn繪圖

 

7.3.3Seaborn繪圖參數設置

 

7.4pyecharts圖表繪制

 

7.4.1pyecharts安裝

 

7.4.2pyecharts繪圖

 

7.4.3pyecharts繪圖參數設置

 

7.5NetworkX圖表繪制

 

7.5.1NetworkX安裝

 

7.5.2NetworkX繪圖

 

7.5.3NetworkX繪圖參數設置

 

7.6wordcloud圖表繪制

 

7.6.1wordcloud安裝

 

7.6.2wordcloud繪圖

 

7.6.3wordcloud繪圖參數設置

 

思考與練習

 

章節實訓: 繪制可視化圖表

 

第5部分應用案例

 

第8章案例: 用戶消費行為分析

 

8.1RFM模型簡介

 

8.2數據讀入

 

8.3數據清洗和預處理

 

8.3.1數據清洗

 

8.3.2數據預處理

 

8.4RFM統計量計算

 

8.5RFM歸類

 

8.6結果保存

 

8.7可視化結果

 

第9章案例: 爬取二手房房價數據並繪制熱力圖

 

9.1數據抓取

 

9.1.1分析網頁

 

9.1.2地址轉換成經緯度

 

9.1.3編寫代碼

 

9.1.4數據下載結果

 

9.2繪制熱力圖

 

第10章案例: 使用Spark實現數據統計分析及性能優化

 

10.1背景

 

10.2系統架構

 

10.2.1總體方案

 

10.2.2詳細設計

 

10.2.3優化設計

 

10.3具體實現

 

10.3.1數據獲取

 

10.3.2數據可視化

 

10.4性能優化

 

10.4.1讀取優化

 

10.4.2查詢優化

 

10.4.3Spark參數級優化