基於Python的Web大數據爬取實戰指南

夏換;楊秀璋;于小民

  • 出版商: 科學出版
  • 出版日期: 2019-03-01
  • 定價: $852
  • 售價: 7.5$639
  • 語言: 簡體中文
  • 頁數: 275
  • 裝訂: 平裝
  • ISBN: 703060637X
  • ISBN-13: 9787030606372
  • 相關分類: 大數據 Big-data
  • 立即出貨

買這商品的人也買了...

商品描述

《基於python的web大數據爬取實戰指南》主要研究基於Python的Web大數據爬取,採用Python語言實現。
《基於python的web大數據爬取實戰指南》貫穿各種爬蟲算法與案例進行講解,是一本典型的實戰指南。
內容涵蓋基礎知識和數據爬取兩大部分,涉及網絡爬蟲入門、Python基礎、HTML基礎、正則表達式、
Selenium技術、網頁自動登錄和數據庫存儲等知識。《基於python的web大數據爬取實戰指南》
結合實例詳細講解了Python網絡爬蟲的各種技術,抓取在線百科、技術博客、新浪微博、游迅網、
生物醫學網等的信息,構思合理,從基礎知識到案例代碼,由淺入深地將知識分享給讀者。

《基於python的web大數據爬取實戰指南》符合國家大數據發展戰略,有利於推動各地區的大數據發展,
為底層大數據挖掘技術做出貢獻。

目錄大綱

目錄
第一部分基礎知識
第1章概述3
1.1 Web大數據爬取3
1.2各章概要5
1.3如何閱讀本書6

第2章Python基礎知識8
2.1 Python語言簡介8
2.2 Python安裝過程9
2.3 Python基礎知識14
2.4條件語句和循環語句29
2.5字符串操作37
2.6文件操作43
2.7局部變量、全局變量與導入塊變量48
2.8多線程編程52

第3章HTML基礎知識及DOM樹結構56
3.1瀏覽器顯示HTML源代碼58
3.2 HTML語法規則61
3.3 HTML DOM樹型結構71
3.4 XPath技術74

第4章XML基礎知識76
4.1基礎知識76
4.2 XML文檔示例78
4.3 XML語法規則81
4.4 XML基本用法84
4.5 Python處理XML數據89

第二部分基於Python的數據爬取
第5章Python網頁爬蟲的相關介紹97
5.1概述97
5.2正則表達式98
5.3 Selenium 99
5.4 BeautifuISoup 100
5.5 Scrapy 100
5.6數據存儲技術104

第6章基於正則表達式的Web爬蟲107
6.1正則表達式107
6.2常用的網頁爬取正則表達式117
6.3 Python爬蟲常用函數128
6.4案例分析1:使用正則表達式獲取新浪博客文章141
6.5案例分析2:使用正則表達式爬取百科知識147

第7章基於Selenium的Web爬蟲162
7.1 Selenium安裝過程163
7.2 Selenium常見元素定位方法和操作170
7.3案例分析1:Selenium爬取百科知識182
7.4案例分析2:Selenium爬取PubMed生物醫學摘要信息186
7.5案例分析3:Selenium爬取圖片193

第8章基於Selenium的自動登錄爬蟲201
8.1 Python自動登錄技術201
8.2新浪微博介紹206
8.3案例分析1:Selenium自動登錄163郵箱209
8.4案例分析2:Selenium自動登錄爬取新浪微博知識213

第9章基於BeautifuISoup的Web爬蟲228
9.1概述及安裝228
9.2 BeautifuISoup具體用法231

第10章數據庫存儲技術244
10.1數據庫存儲的基本技術244
10.2 MySQL數據庫知識245
10.3 Python數據庫知識253
10.4案例分析:Selenium爬取數據並存儲至數據庫中262目錄
第一部分基礎知識
第1章概述3
1.1 Web大數據爬取3
1.2各章概要5
1.3如何閱讀本書6

第2章Python基礎知識8
2.1 Python語言簡介8
2.2 Python安裝過程9
2.3 Python基礎知識14
2.4條件語句和循環語句29
2.5字符串操作37
2.6文件操作43
2.7局部變量、全局變量與導入塊變量48
2.8多線程編程52

第3章HTML基礎知識及DOM樹結構56
3.1瀏覽器顯示HTML源代碼58
3.2 HTML語法規則61
3.3 HTML DOM樹型結構71
3.4 XPath技術74

第4章XML基礎知識76
4.1基礎知識76
4.2 XML文檔示例78
4.3 XML語法規則81
4.4 XML基本用法84
4.5 Python處理XML數據89

第二部分基於Python的數據爬取
第5章Python網頁爬蟲的相關介紹97
5.1概述97
5.2正則表達式98
5.3 Selenium 99
5.4 BeautifuISoup 100
5.5 Scrapy 100
5.6數據存儲技術104

第6章基於正則表達式的Web爬蟲107
6.1正則表達式107
6.2常用的網頁爬取正則表達式117
6.3 Python爬蟲常用函數128
6.4案例分析1:使用正則表達式獲取新浪博客文章141
6.5案例分析2:使用正則表達式爬取百科知識147

第7章基於Selenium的Web爬蟲162
7.1 Selenium安裝過程163
7.2 Selenium常見元素定位方法和操作170
7.3案例分析1:Selenium爬取百科知識182
7.4案例分析2:Selenium爬取PubMed生物醫學摘要信息186
7.5案例分析3:Selenium爬取圖片193

第8章基於Selenium的自動登錄爬蟲201
8.1 Python自動登錄技術201
8.2新浪微博介紹206
8.3案例分析1:Selenium自動登錄163郵箱209
8.4案例分析2:Selenium自動登錄爬取新浪微博知識213

第9章基於BeautifuISoup的Web爬蟲228
9.1概述及安裝228
9.2 BeautifuISoup具體用法231

第10章數據庫存儲技術244
10.1數據庫存儲的基本技術244
10.2 MySQL數據庫知識245
10.3 Python數據庫知識253
10.4案例分析:Selenium爬取數據並存儲至數據庫中262