大數據爬取、清洗與可視化教程

賈寧

  • 出版商: 電子工業
  • 出版日期: 2021-03-01
  • 定價: $336
  • 售價: 8.5$286
  • 語言: 簡體中文
  • 頁數: 308
  • 裝訂: 平裝
  • ISBN: 7121407523
  • ISBN-13: 9787121407529
  • 相關分類: 大數據 Big-data

下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書通過實踐操作介紹大數據爬取、清洗與可視化的具體實施方案,共10章,包括大數據爬取、清洗與可視化概述,爬蟲概述,Requests庫,BeautifulSoup爬蟲,自動化測試工具Selenium,中型爬蟲框架Scrapy,數據存儲,數據清洗,Matplotlib可視化,Pyecharts可視化。書中的案例均經過實踐驗證,可以幫助讀者深入理解數據信息在大數據行業中的重要應用。為方便復習和自學,各章均配備豐富的習題。本書可作為高等院校大數據相關專業的教材,也可作為有關專業技術人員的培訓教材,同時可作為大數據分析愛好者及從事網絡數據安全管理工作人員的參考書。

作者簡介

賈寧,大連東軟信息學院副教授,多年來一直從事大數據技術及應用、人工智能、深度學習/雲計算等方面的科研和教學工作。

目錄大綱

第1章大數據爬取、清洗與可視化概述1
1.1爬蟲概述1
1.1.1爬蟲簡介1
1.1.2常見爬蟲分類和工具2
1.2數據清洗概述2
1.2.1數據清洗簡介2
1.2.2常見數據清洗工具3
1.3可視化技術概述3
1.3.1數據可視化概述3
1.3.2常見可視化工具5
1.4相關網絡技術簡介5
1.4 .1 HTTP 5
1.4.2 HTML 7
1.4.3 XML 10
1.4.4 JSON 13
1.4.5 JavaScript 14
1.4.6正則表達式17
1.5 Python開發環境配置21
1 .5.1在Windows中安裝Python 22
1.5.2在Linux中安裝Python 24
1.5.3 Python集成開發環境26
1.5.4 Python第三方庫管理33
本章小結35
習題35

第2章爬蟲概述36
2.1爬蟲基礎概述36
2.1.1爬蟲概念36
2.1.2爬蟲基本原理37
2.2爬蟲規範39
2.2.1爬蟲尺寸39
2.2.2 Robots協議39
2.3爬蟲通用結構43
2.3.1爬蟲通用結構簡介43
2.3.2爬蟲基本工作流程43
2.3.3異常處理機制44
2.4爬蟲技術46
2.4.1 urllib 3庫46
2.4.2網頁內容查看51
2.4.3 XPath 56
本章小結60
習題60

第3章Requests庫62
3.1 Requests庫簡介與安裝62
3.1.1 Requests庫簡介62
3.1.2 Requests庫安裝62
3.2 Requests庫基本使用63
3.2.1 Requests庫的主要方法63
3.2.2發送基本請求66
3.2.3響應內容66
3 .2.4訪問異常處理方案67
3.3 Requests庫高級用法69
3.3.1定制請求頭部69
3.3.2設置超時70
3.3.3傳遞參數70
3.3.4解析JSON 72
3.4代理設置72
3.5模擬登錄73
3.5.1保持登錄機制73
3.5.2使用Cookies登錄網站74
3.5.3登錄流程分析77
3.5.4 Requests會話對象78
3.5.5登錄網站實例80
3.6資源下載80
3.7 Requests庫應用實例82
3.7.1具體功能分析82
3.7.2具體代碼實現85
本章小結86
習題87

第4章BeautifulSoup爬蟲88
4.1 BeautifulSoup簡介與安裝88
4.1.1 BeautifulSoup簡介88
4.1.2 BeautifulSoup4安裝方法88
4.1.3 BeautifulSoup解析器90
4.1.4 BeautifulSoup初探92
4.2 BeautifulSoup對像類型93
4.2.1 Tag 93
4.2.2 NavigableString 95
4.2.3 BeautifulSoup 96
4.2.4 Comment 96
4.3 BeautifulSoup的遍歷與搜索97
4.3.1遍歷文檔樹97
4.3.2搜索文檔樹105
4.4 BeautifulSoup應用實例110
4.4.1基於BeautifulSoup的獨立數據爬取110
4.4.2融合正則表達式的數據爬取112
本章小結114
習題115

第5章自動化測試工具Selenium 116
5.1 Selenium簡介與安裝116
5.1.1 Selenium簡介116
5.1.2 Selenium安裝116
5.2 Selenium基本用法120
5.2.1聲明瀏覽器對象120
5.2.2訪問頁面120
5.3元素121
5.3.1定位元素121
5.3.2交互操作元素126
5. 3.3動作鏈127
5.3.4獲取元素屬性128
5.4 Selenium高級操作129
5.4.1執行JavaScript 129
5.4.2前進、後退和刷新操作130
5.4.3等待操作130
5.4.4處理Cookies 132
5.4.5處理異常133
5.5 Selenium實例134
5.5.1具體功能分析134
5.5.2具體代碼實現135
本章小結136
習題137

第6章中型爬蟲框架Scrapy 138
6.1 Scrapy框架簡介與安裝138
6.1.1 Scrapy運行機制138
6.1.2 Scrapy框架簡介139
6.1.3 Scrapy安裝140
6.2 Scrapy命令行工具141
6.2.1全局命令142
6.2.2 Project-only命令144
6.3選擇器146
6.3.1選擇器簡介147
6.3.2選擇器基礎147
6.3.3結合正則表達式151
6.3.4嵌套選擇器152
6.4 Scrapy項目開發152
6.4.1新建項目153
6.4.2定義Items 153
6.4.3製作爬蟲154
6.4.4爬取數據156
6.4.5使用Items 160
6.5 Item Pipeline 161
6.5.1 Item Pipeline簡介161
6.5.2 Item Pipeline應用162
6.6中間件164
6.6.1下載器中間件164
6.6.2爬蟲中間件168
6.7 Scrapy實例171
6 .7.1具體功能分析171
6.7.2具體代碼實現172
本章小結174
習題174

第7章數據存儲176
7.1數據存儲簡介176
7.1.1現代數據存儲的挑戰176
7.1.2常用工具177
7.2文本文件存儲179
7.2.1文本數據的讀寫179
7.2.2 CSV數據的讀寫182
7.2.3 Excel數據的讀寫187
7.2.4 JSON對象的讀寫193
7.3 MongoDB數據庫197
7.3.1 MongoDB簡介197
7.3 .2 MongoDB安裝198
7.3.3 MongoDB數據庫操作202
7.4數據存儲實例207
7.4.1具體功能分析207
7.4.2具體代碼實現208
本章小結210
習題210

第8章數據清洗212
8.1數據清洗概述212
8.1.1數據清洗原理212
8.1.2主要數據類型212
8.1.3常用工具213
8.2數據清洗方法215
8.2.1重複數據處理215
8 .2.2缺失數據處理218
8.2.3異常數據處理224
8.2.4格式內容清洗226
8.2.5邏輯錯誤清洗227
8.3數據規整228
8.3.1字段拆分228
8.3.2數據分組229
8.3.3數據聚合232
8.3.4數據分割236
8.3.5數據合併238
8.4數據清洗實例244
8.4.1具體功能分析244
8.4.2具體代碼實現245
本章小結247
習題247

第9章Matplotlib可視化249
9.1 Matplotlib簡介與安裝249
9.1.1 Matplotlib簡介249
9 .1.2 Matplotlib安裝250
9.2基礎語法和常用設置251
9.2.1繪圖流程251
9.2.2佈局設置252
9.2.3畫布創建255
9.2.4參數設置256
9. 3基礎圖形繪製258
9.3.1折線圖258
9.3.2直方圖259
9.3.3餅狀圖260
9.3.4箱形圖262
9.3.5散點圖264
9. 3.6三維圖266
本章小結269
習題270

第10章Pyecharts可視化271
10.1 Pyecharts簡介與安裝271
10.1.1 Pyecharts簡介271
10.1.2 Pyecharts安裝272
10.2公共屬性設置272
10.2.1全局配置項272
10.2.2系列配置項275
10 .3二維圖形繪製276
10.3.1柱狀圖276
10.3.2折線圖281
10.3.3面積圖284
10.3.4漣漪散點圖285
10.3.5餅狀圖286
10.3.6漏斗圖290
10.4三維圖形繪製292
10.4.1三維柱狀圖292
10.4.2三維散點圖294
10.4.3三維地圖296
10.5 Pyecharts實例296
10. 5.1具體功能分析296
10.5.2具體代碼實現297
本章小結298
習題299
參考文獻300