零基礎學Python網絡爬蟲案例實戰全流程詳解 : 入門與提高篇
王宇韜 吳子湛 編著
- 出版商: 機械工業
- 出版日期: 2021-06-01
- 定價: $594
- 售價: 8.5 折 $505
- 語言: 簡體中文
- 頁數: 344
- 裝訂: 平裝
- ISBN: 7111683684
- ISBN-13: 9787111683681
-
相關分類:
Web-crawler 網路爬蟲
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$294Nmap 滲透測試指南 -
Python 網路爬蟲與資料視覺化應用實務$650$553 -
打造股市小秘書|聊天機器人 x 網路爬蟲 x NoSQL x Python 整合應用實務$380$300 -
$403數據決策:企業數據的管理、分析與應用 -
數位世界大師 MongoDB 4.2 版$899$854 -
使用 Python 搜刮網路資料的 12堂實習課$520$406 -
$454中臺實踐:數字化轉型方法論與解決方案 -
從零開始學 Selenium 自動化測試:基於 Python:視頻教學版$594$564 -
$454Python 網絡爬蟲技術與實戰 -
$403Selenium 自動化測試實戰 -- 基於 Python -
$505Selenium 自動化測試完全指南 -- 基於 Python -
$505標簽類目體系:面向業務的數據資產設計方法論 -
$458零基礎學 Python 網絡爬蟲案例實戰全流程詳解.高級進階篇 -
文科生也可以輕鬆學習網路爬蟲:Python + Web Scraper$520$411 -
$653Python 網絡爬蟲技術手冊:基礎·實戰·強化 -
Python 金融市場賺大錢聖經:寫出你的專屬指標, 2/e$780$616 -
機器學習最強入門 - 基礎數學/機率/統計邁向AI真實數據專題實作 - 王者歸來$980$774 -
$607Python 爬蟲從菜鳥到高手 -
$709機器學習高級實踐:運算廣告、供需預測、智慧行銷、動態定價 -
Streamlit 實戰指南 : 使用 Python 創建交互式數據應用$888$844
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
網絡爬蟲是當今獲取數據不可或缺的重要手段。本書講解了Python爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門並熟練使用爬蟲。
全書共8章。第1章講解Python開發環境的安裝與配置以及Python的基礎語法知識。第2章講解如何運用Requests庫和Selenium庫獲取網頁源代碼。第3章講解如何運用正則表達式和BeautifulSoup庫解析和提取數據。第4章深入講解Selenium庫在商業實戰中的進階應用。第5章講解爬蟲數據的處理與可視化。第6章講解爬蟲數據結構化神器pandas庫,以及如何通過Python在MySQL數據庫中讀寫數據。第7章講解如何運用多線程和多進程技術提高爬蟲效率。第8章講解如何運用IP代理應對網站的反爬機制。
本書對於編程新手來說非常友好,從Python基礎到爬蟲原理再到實戰應用,循序漸進地幫助讀者打好基礎。對於有一定Python爬蟲基礎的讀者,本書也針對實戰中常見的疑點和難點提供瞭解決技巧。
作者簡介
王宇韜
華能貴誠信託金融科技實驗室發起人,賓夕法尼亞大學碩士,上海交通大學學士,曾在劍橋大學交流學習,兩年內通過CFA 3 級、FRM 2 級、AQF。
在華能貴誠信託自主研發了輿情監控系統、資金雷達、流程自動化AI 系統、機器視頻面試系統等;專註於科技在金融領域的應用,編著有《Python 金融大數據挖掘與分析全流程詳解》和《Python 大數據分析與機器學習商業案例實戰》。
吳子湛
畢業於合肥工業大學計算機學院,就職於南京市秦淮區大數據中心;擁有多年IT 研發經驗,擅長大數據分析與挖掘。
目錄大綱
前言
本書學習資源
第1章 Python基礎
1.1 Python快速上手 13
1.1.1 安裝Python 13
1.1.2 編寫第一個Python程序 15
1.1.3 PyCharm的安裝與使用 16
1.1.4 Jupyter Notebook的使用 27
1.2 Python語法基礎知識 34
1.2.1 變量、行、縮進與註釋 34
1.2.2 數據類型:數字與字符串 36
1.2.3 數據類型:列表與字典、元組與集合 38
1.2.4 運算符 44
1.3 Python語句 46
1.3.1 if條件語句 46
1.3.2 for循環語句 47
1.3.3 while循環語句 49
1.3.4 try/except異常處理語句 50
1.4 函數與庫 50
1.4.1 函數的定義與調用 51
1.4.2 函數的返回值與變量的作用域 52
1.4.3 常用內置函數介紹 54
1.4.4 庫的導入與安裝 57
★ 課後習題 61
第2章 爬蟲第一步:獲取網頁源代碼
2.1 爬蟲核心庫1:Requests庫 62
2.1.1 如何查看網頁源代碼 62
2.1.2 用Requests庫獲取網頁源代碼:百度新聞 66
2.1.3 Requests庫的“軟肋” 70
2.2 爬蟲核心庫2:Selenium庫 71
2.2.1 模擬瀏覽器及Selenium庫的安裝 71
2.2.2 用Selenium庫獲取網頁源代碼:新浪財經股票信息 74
2.3 網頁結構分析 76
2.3.1 網頁結構基礎 76
2.3.2 網頁結構進階 76
★ 課後習題 82
第3章 爬蟲第二步:數據解析與提取
3.1 用正則表達式解析和提取數據 83
3.1.1 正則表達式基礎1:findall()函數 83
3.1.2 正則表達式基礎2:非貪婪匹配之“(.*?)” 85
3.1.3 正則表達式基礎3:非貪婪匹配之“.*?” 88
3.1.4 正則表達式基礎4:自動考慮換行的修飾符re.S 90
3.1.5 正則表達式基礎5:知識點補充 91
3.1.6 案例實戰:提取百度新聞的標題、網址、日期和來源 93
3.2 用BeautifulSoup庫解析和提取數據 98
3.2.1 解析特定標簽的網頁元素 98
3.2.2 解析特定屬性的網頁元素 100
3.2.3 提取標簽中的網址 101
3.2.4 案例實戰:新浪新聞標題和網址爬取 102
3.3 百度新聞爬取進階探索 107
3.3.1 批量爬取多家公司的新聞 107
3.3.2 將爬取結果保存為文本文件 108
3.3.3 異常處理及24小時不間斷爬取 111
3.3.4 批量爬取多頁內容 113
3.4 證券日報網爬取實戰 116
3.4.1 用正則表達式爬取 116
3.4.2 用BeautifulSoup庫爬取 120
3.5 中證網爬取實戰 121
3.6 新浪微博爬取實戰 125
3.7 上海證券交易所上市公司PDF文件下載 128
3.7.1 用Requests庫下載文件的基本方法 128
3.7.2 初步嘗試下載上海證券交易所上市公司PDF文件 130
3.8 豆瓣電影Top 250排行榜海報圖片下載 131
3.8.1 爬取單頁 131
3.8.2 爬取多頁 134
★ 課後習題 136
第4章 爬蟲神器Selenium庫深度講解
4.1 Selenium庫進階知識 137
4.2 新浪財經股票行情數據爬取 142
4.2.1 用Selenium庫爬取股票行情數據 142
4.2.2 用新浪財經API爬取股票行情數據 144
4.3 東方財富網數據爬取 149
4.3.1 上市公司股吧帖子爬取 149
4.3.2 上市公司新聞爬取 150
4.3.3 上市公司研報PDF文件下載 154
4.4 上海證券交易所問詢函信息爬取及PDF文件下載 160
4.4.1 批量下載單個頁面上的PDF文件 161
4.4.2 批量下載多個頁面上的PDF文件 163
4.4.3 匯總問詢函信息並導出為Excel工作簿 166
4.5 銀行間拆借利率爬取 167
4.6 雪球股票評論信息爬取 173
4.7 京東商品評價信息爬取 175
4.7.1 用Selenium庫爬取 175
4.7.2 用Requests庫爬取 179
4.8 淘寶天貓商品銷量數據爬取 183
4.9 Selenium庫趣味案例:網頁自動投票 186
★ 課後習題 188
第5章 數據處理與可視化
5.1 數據清洗與優化技巧 189
5.1.1 常用的數據清洗手段及日期格式的統一 189
5.1.2 文本內容過濾—剔除噪聲數據 190
5.1.3 數據亂碼問題處理 195
5.1.4 數據爬後處理之輿情評分 198
5.2 數據可視化分析—詞雲圖繪制 200
5.2.1 用jieba庫實現中文分詞 200
5.2.2 用wordcloud庫繪制詞雲圖 204
5.2.3 案例實戰:新浪微博詞雲圖繪制 208
★ 課後習題 211
第6章 數據結構化與數據存儲
6.1 數據結構化神器—pandas庫 212
6.1.1 用read_html()函數快速爬取網頁表格數據 212
6.1.2 pandas庫在爬蟲領域的核心代碼知識 214
6.2 新浪財經—資產負債表獲取 225
6.3 百度新聞—文本數據結構化 229
6.3.1 將單家公司的新聞導出為Excel工作簿 229
6.3.2 將多家公司的新聞導出為Excel工作簿 230
6.4 百度愛企查—股權穿透研究 231
6.4.1 單層股權結構爬取 232
6.4.2 多層股權結構爬取 235
6.5 天天基金網—股票型基金信息爬取 237
6.5.1 爬取基金信息表格 238
6.5.2 爬取基金的詳情頁面網址 239
6.6 集思錄—可轉債信息爬取 242
6.7 東方財富網—券商研報信息爬取 243
6.7.1 爬取券商研報信息表格 244
6.7.2 爬取研報的詳情頁面網址 245
6.8 數據存儲—MySQL快速入門 247
6.8.1 MySQL的安裝 247
6.8.2 MySQL的基本操作 252
6.9 用Python操控數據庫 261
6.9.1 用PyMySQL庫操控數據庫 261
6.9.2 案例實戰:百度新聞數據爬取與存儲 267
6.9.3 用pandas庫操控數據庫 271
★ 課後習題 276
第7章 Python多線程和多進程爬蟲
7.1 理解線程與進程 277
7.1.1 電腦硬件結構基礎知識 277
7.1.2 線程與進程 279
7.1.3 單線程、多線程與多進程 281
7.1.4 爬蟲任務中的多線程與多進程 282
7.2 Python多線程爬蟲編程實戰 285
7.2.1 Python多線程編程基礎知識 285
7.2.2 Python多線程編程進階知識 294
7.2.3 案例實戰:多線程爬取百度新聞 300
7.3 Python多進程爬蟲編程實戰 302
7.3.1 Python多進程編程基礎知識 303
7.3.2 Python多進程編程進階知識 305
7.3.3 案例實戰:多進程爬取百度新聞 307
★ 課後習題 309
第8章 IP代理使用技巧與實戰
8.1 結合Requests庫使用IP代理 310
8.1.1 IP代理基礎知識 310
8.1.2 IP代理的使用 311
8.2 IP代理實戰1:用Requests庫爬取公眾號文章 315
8.2.1 直接用Requests庫爬取 315
8.2.2 添加IP代理進行爬取 324
8.2.3 添加智能IP切換系統 327
8.3 結合Selenium庫使用IP代理 334
8.4 IP代理實戰2:用Selenium庫爬取公眾號文章 335
8.4.1 直接用Selenium庫爬取 335
8.4.2 添加IP代理進行爬取 337
8.4.3 添加智能IP切換系統 338
★ 課後習題 340
後記 342
