此商品已下架,若仍需天瓏代為查詢或代購書籍,請與門市客服人員聯繫,或 E-mail 至 service@tenlong.com.tw 將有專人為您服務。

Python爬蟲大數據採集與挖掘-微課視頻版

曾劍平

  • Python爬蟲大數據採集與挖掘-微課視頻版-preview-1
  • Python爬蟲大數據採集與挖掘-微課視頻版-preview-2
Python爬蟲大數據採集與挖掘-微課視頻版-preview-1

買這商品的人也買了...

商品描述

本書圍繞大數據採集,對採集技術的相關基礎、技術原理、 Python實現技術、大數據挖掘與應用方法 進行了系統介紹。書中全面、完整地覆蓋了各種類型的網絡爬蟲及相關的信息處理挖掘技術,並提供了27個與爬蟲技術和應用相關的Python程序。全書共分為四大部分,即概述、基礎篇、技術與實現篇 、大數據挖掘與應用篇。第一部分是概述,首先指出了利用Python採集因特網大數據的重要性,介紹了 相關技術研究、技術體系、 Py t hon爬蟲採集技術的合規性及應用現狀等; 第二部分是基礎篇,包括 Web服務器的應用架構以及HTTP、 Robots、 HTML、頁面編碼等相關協議和規範; 第三部分是技術與 實現篇,全面介紹了普通網絡爬蟲技術、動態頁面採集方法、主題爬蟲技術、 DeepWeb爬蟲、微博信息採集 、Web信息提取以及反爬蟲技術等,內容涵蓋了各種爬蟲技術實現方法及Python例子; 第四部分是 大數據挖掘與應用篇,介紹了用於爬蟲應用中的典型大數據處理與挖掘技術以及 Web大數據採集的常 見應用模式,並以新聞採集與分析、 SQL註入在線檢測為例介紹了Python爬蟲應用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。 本書可以作為高等院校大數據、電腦、信息以及經管、金融等相關專業的教材,也可以作為大數據、電腦、信息以及經管、金融等領域研究人員和專業技術人員的參考書。

目錄大綱

第一部分 概述
第1章 大數據采集概述
1.1 互聯網大數據與采集
1.1.1 互聯網大數據來源
1.1.2 互聯網大數據的特征
1.2 Python爬蟲大數據采集技術的重要性
1.3 爬蟲技術研究及應用現狀
1.4 爬蟲技術的應用場景
1.5 爬蟲大數據采集的技術體系
1.5.1 技術體系構成
1.5.2 相關技術
1.5.3 技術評價方法
1.6 爬蟲大數據采集與挖掘的合規性
1.7 爬蟲大數據采集技術的展望
思考題
第二部分 基礎篇
第2章 Web頁面及相關技術
2.1 HTML語言規範
2.1.1 HTML標簽
2.1.2 HTML整體結構
2.1.3 CSS簡述
2.1.4 常用標簽
2.1.5 HTML語言的版本進化
2.2 編碼體系與規範
2.2.1 ASCII
2.2.2 gb2312/gbk
2.2.3 unicode
2.2.4 utf
2.2.5 網頁中的編碼和Python處理
2.3 Python正則表達式
思考題
第3章 Web應用架構與協議
3.1 常用的Web服務器軟件
3.1.1 流行的Web服務器軟件
3.1.2 在Python中配置Web服務器
3.2 Web服務器的應用架構
3.2.1 典型的應用架構
3.2.2 Web頁面的類型
3.2.3 頁面文件的組織方式
3.3 Robots協議
3.3.1 Robots協議的來歷
3.3.2 Robots協議的規範與實現
3.4 HTTP協議
3.4.1 HTTP版本的技術特性
3.4.2 HTTP報文
3.4.3 HTTP頭部
3.4.4 HTTP狀態碼
3.4.5 HTTPS
3.5 狀態保持技術
3.5.1 Cookie
……
第三部分 技術與實現篇
第4章 普通爬蟲頁面采集技術與Python實現
第5章 動態頁面采集技術與Python實現
第6章 Web信息提取與Python實現
第7章 主題爬蟲頁面采集技術與Python實現
第8章 Deep web爬蟲與Python實現
第9章 微博信息采集與Python實現
第10章 反爬蟲技術與反反爬蟲技術
第四部分 大數據挖掘與應用篇
第11章 文本信息處理與挖掘技術
第12章 互聯網大數據獲取技術的應用
附錄A 代碼與數據
附錄B 相關包索引
附錄C 爬蟲框架
參考文獻

最後瀏覽商品 (20)