大數據採集與爬蟲
李俊翰,付雯,王正霞,胡心雷著
- 出版商: 機械工業
- 出版日期: 2020-05-01
- 定價: $270
- 售價: 7.9 折 $213
- 語言: 簡體中文
- 頁數: 206
- 裝訂: 平裝
- ISBN: 711165126X
- ISBN-13: 9787111651260
-
相關分類:
Web-crawler 網路爬蟲
立即出貨
買這商品的人也買了...
-
$299Facebook Application Development -
Essential Facebook Development: Build Successful Applications for the Facebook Platform (Paperback)$1,780$1,691 -
Facebook Application Development For Dummies (Paperback)$1,230$1,169 -
王者歸來 : 自己動手寫網路爬蟲$550$468 -
Webbots, Spiders, and Screen Scrapers: A Guide to Developing Internet Agents with PHP/CURL, 2/e (Paperback)$1,920$1,824 -
$534Git 權威指南 -
jQuery 風暴-打造最友善的網頁介面$520$442 -
徹底研究 PHP6 + MySQL 全能權威指南$860$731 -
徹底研究 jQuery 全能權威指南
$760$646 -
Android 高效入門>>深度學習-使用 Android Studio 2 開發 Android 6.0 APP
$650$507 -
Android 程式設計入門、應用到精通, 4/e (使用Android Studio 2.X開發,涵蓋Android 7.X和Android Wear)$580$458 -
新觀念 Android 程式設計範例教本 - 使用 Android Studio 2.x 版$590$502 -
輕鬆學 Android 應用程式設計
$520$406 -
Android 專案開發實戰:叫車服務 App 的設計實務大解密$400$312 -
Android 雲端與物聯網關鍵通訊技術$520$411 -
Android 7.x APP 開發教戰手冊$520$442 -
Android 程式設計與應用 (附範例光碟)$520$468 -
Java SE 8 與 Android 7.x 程式設計範例教本$540$427 -
Android 7.X App 開發之鑰 -- 使用 Java 及 Android Studio$680$578 -
Python 網路爬蟲:大數據擷取、清洗、儲存與分析 -- 王者歸來$650$514 -
Python 大數據特訓班:資料自動化收集、整理、清洗、儲存、分析與應用實戰, 2/e (附300分鐘影音教學/範例程式)$520$411 -
$374Python 3 網絡爬蟲實戰 -
使用 Python 搜刮網路資料的 12堂實習課$520$406 -
$403Python3網絡爬蟲寶典 -
Python 與 LINE Bot 機器人全面實戰特訓班 -- Flask 最強應用 (附210分鐘影音教學/範例程式)$550$435
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
《大數據採集與爬蟲》主要講解瞭如何使用Python編寫網絡爬蟲程序,
內容包括Python環境搭建、Python的基礎語法、爬蟲基礎知識、網絡基礎知識、
常用爬蟲庫和解析庫、數據持久化存儲、Web API和異步數據抓取技術、
Selenium和ChromeDriver的用法,以及Scrapy爬蟲框架的基本原理和操作。
*後介紹了一個網絡爬蟲的綜合案例,以鞏固前面所學的知識。
《大數據採集與爬蟲》適合作為高等職業院校大數據技術與應用專業的教材,
也適合有一定Python編程經驗並且對爬蟲技術感興趣的讀者閱讀。
目錄大綱
目錄
前言
任務1 Python環境搭建
11任務描述
12 Python概述
13 Python編程環境搭建
131在Windows操作系統下安裝Python
132在Linux操作系統下安裝Python
133在Mac OS操作系統下安裝Python
14安裝集成開發環境PyCharm
141 PyCharm概述
142 PyCharm的安裝和運行
15 Python的數據類型
151整型
152浮點型
153字符串類型
154列表類型
155集合類型
156字典類型
157元組類型
16 Python語句與函數
161條件判斷語句
162循環語句
163自定義函數
17任務實現
18小結
19習題
任務2實現簡單數據採集
21任務描述
22網絡爬蟲基礎知識
221網絡爬蟲概述
222使用網絡爬蟲的風險
223 Python爬蟲的工作過程
23網絡基礎知識
231 HTML
232 URI和URL
233 HTTP
234 Request和Response
24 requests庫的安裝及使用
241 requests庫概述
242 requests庫的安裝
243 requests庫的基本用法
25 lxml庫和BeautifulSoup庫的安裝及使用
251 lxml庫概述
252 BeautifulSoup庫概述
253 lxml庫和BeautifulSoup庫的安裝
254 lxml庫和BeautifulSoup庫的基本用法
26任務實現
27小結
28習題
任務3存儲數據
31任務描述
32 MySQL的安裝及使用
321 MySQL概述
322 MySQL的安裝
323 MySQL的操作
33 PyMySQL的使用
34 CSV和JSON格式
341 CSV格式概述
342輸出CSV文件頭部
343使用Python讀取CSV文件數據
344使用Python向CSV文件寫入數據
345 JSON格式概述
346使用Python讀取JSON文件數據
347使用Python向JSON文件寫入數據
35任務實現
36小結
37習題
任務4使用Web API採集數據
41任務描述
42 GitHub
421 GitHub概述
422 GitHub的基本用法
43 Web API
431 Web API概述
432 GitHub開放API的數據特點
433 GitHub的API請求數據
434獲取API的響應數據
435處理API的響應數據
44任務實現
45小結
46習題
任務5使用AJAX採集數據
51任務描述
52 AJAX
521 AJAX的起源
522 AJAX概述
523 AJAX的特點
524靜態數據
525動態數據
526分析AJAX採集的數據
527提取AJAX採集的數據
53任務實現
54小結
55習題
任務6主流驗證碼解析
61驗證碼概述
62自定義圖形驗證碼解析
621任務描述
622圖形驗證碼概述
623 tesserocr庫概述
624 tesserocr庫的安裝
625自定義圖形驗證碼的生成
626使用tesserocr庫解析自定義圖形驗證碼
627任務實現
63滑動驗證碼解析
631任務描述
632滑動驗證碼概述
633 ChromeDriver概述
634 ChromeDriver的安裝
635 Selenium概述
636 Selenium的安裝
637 Selenium和ChromeDriver的基本用法
638任務實現
64點擊式驗證碼解析
641任務描述
642點擊式驗證碼概述
643聚合數據平臺接口概述
644任務實現
65小結
66習題
任務7模擬登錄
71使用Selenium和ChromeDriver實現模擬登錄
711任務描述
712 GET概述
713 GET的基本用法
714 POST概述
715 POST的基本用法
716 GET和POST的區別
717任務實現
72使用Cookie實現模擬登錄
721任務描述
722 Cookie概述
723 Session概述
724 Cookie和Session的區別
725任務實現——使用Cookie模擬登錄
726任務實現——使用requests庫實現用Cookie和Session模擬登錄
73小結
74習題
任務8使用Scrapy爬蟲框架採集數據
81任務描述
82 Scrapy
821 Scrapy概述
822 Scrapy的工作原理
83 Scrapy的安裝
831在Windows操作系統下安裝Scrapy
832在Linux操作系統下安裝Scrapy
84 Scrapy各組件的用法
841 Selector類
842 Spider類
843下載器中間件
844條目管道
845網絡爬蟲中間件
85任務實現
86小結
87習題
任務9綜合案例
91任務描述
92頁面分析
93模擬登錄
94獲取靜態數據
95獲取動態數據
96數據持久化保存
97小結
目錄
