網絡爬蟲原理與實踐:基於 C# 語言
李健//種惠芳
- 出版商: 機械工業
- 出版日期: 2022-11-01
- 售價: $474
- 貴賓價: 9.5 折 $450
- 語言: 簡體中文
- 頁數: 398
- 裝訂: 平裝
- ISBN: 7111716949
- ISBN-13: 9787111716945
-
相關分類:
Web-crawler 網路爬蟲
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
資料壓縮 (Introduction to Data Compression, 3/e)$550$495 -
世界第一簡單線性代數$320$272 -
深入淺出 WPF$270$257 -
WPF 應用開發項目教程$168$160 -
$356C# 項目開發實戰密碼 -
世界第一簡單專案管理$280$238 -
一本讀懂股票技術分析:瞭解股價型態、掌握買賣時機、提高投資表現!$320$272 -
Python 網路爬蟲與資料分析入門實戰$450$351 -
XML ─ 資訊組織與傳播核心技術$600$540 -
C# 網絡程序開發, 2/e$234$222 -
$322ERP 與企業經營模擬 -
Python x Excel VBA x JavaScript|網路爬蟲 x 實戰演練$750$638 -
密碼編碼學與網絡安全 — 原理與實踐, 8/e (Cryptography and Network Security: Principles and Practice, 8/e (RENTAL EDITION))$588$559 -
$469C# 編程魔法書 -
影像辨識實務應用 -- 使用 C#【暢銷回饋版】$500$390 -
深入淺出智能物聯網 OpenWrt 操作系統$719$683 -
C# 最強入門邁向頂尖高手之路王者歸來$980$774 -
Access 與 Excel 商業智慧決策分析系統 高手 (舊名: 商業智慧分析決策系統開發寶典使用 Access 2013 與 Excel 2013)$480$408 -
電腦軟體設計丙級技能檢定學術科|使用 C#$320$253 -
企業戰略資源管理系統 程式設計 (舊名: 企業戰略資源管理系統 : UML3 & XML3 物件導向系統分析與設計)$580$493 -
$594ASP.NET Core + Vue.js 全棧開發訓練營 -
新一代 Keras 3.x 重磅回歸:跨 TensorFlow 與 PyTorch 建構 Transformer、CNN、RNN、LSTM 深度學習模型$750$593 -
寫程式前的必學工具:命令列、編輯器、Git/GitHub,軟體開發三本柱一次搞定$490$387 -
$474C# 上位機開發實戰指南 -
影像辨識實務應用:使用 C#【好評回饋版】$500$390
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
85折
$505GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL 計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
本書基於C#語言介紹網絡爬蟲開發的基本原理、技巧和應用實例,
適合網絡爬蟲開發的愛好者和研究者閱讀。
讀者*好具備一定的編程基礎,或者正在學習C#編程,
以便更好地理解本書的內容。
本書具有以下特點:
1)內容簡明、由淺入深。
本書不追求內容上的面面俱到,而是圍繞網絡爬蟲的核心環節,
介紹其基本原理和實現方法,並進行適當的功能擴展。
與其他同類書籍相比,本書篇幅適中,適合初學者閱讀。
2)實例豐富,代碼翔實。書中盡量選擇邏輯簡明、
功能完整的典型實例,從需求、設計、實現的角度分別進行介紹。
而且,幾乎所有實例都給出了主要實現代碼,
並對關鍵代碼進行了詳細註釋,方便讀者進行實踐
目錄大綱
目錄
前言
第1章網絡爬蟲概述1
1.1 網絡基礎1
1.1.1 網絡的基本概念1
1.1.2 HTTP6
1.1.3 會話機制11
1.2 網頁知識14
1.2.1 HTML14
1.2.2 CSS17
1.2.3 JavaScript20
1.3 網絡爬蟲的原理22
1.3.1 網絡爬蟲概述22
1.3.2 Robots協議25
1.3.3 網絡爬蟲框架29
第2章C#編程基礎31
2.1 C#語言概述31
2.1.1 C#與.NET框架31
2.1.2 開發環境33
2.1.3 語言生態37
2.2 數據和運算40
2.2.1 C#數據類型40
2.2.2 常用運算符45
2.3 流程控制50
2.3.1 分支結構51
2.3.2 循環結構54
2.4 常用數據結構56
2.4.1 字符串56
2.4.2 數組60
2.4.3 列表62
2.4.4 字典65
第3章網絡資源下載70
3.1 同步下載70
3.1.1 網頁下載70
3.1.2 編碼檢測72
3.1.3 參數設置76
3.2 異步下載83
3.2.1 實現方式83
3.2.2 性能分析85
3.3 通用資源下載器86
3.3.1 下載器的設計86
3.3.2 下載器的實現88
第4章網頁數據抽取95
4.1 正則表達式抽取95
4.1.1 正則表達式簡介95
4.1.2 使用Regex類97
4.2 XPath抽取100
4.2.1 XPath簡介100
4.2.2 使用HtmlAgilityPack103
4.3 HTML解析器107
4.4 綜合實例:新聞資訊爬蟲110
4.4.1 爬蟲設計110
4.4.2 爬蟲實現111
第5章其他數據抽取119
5.1 XML數據抽取119
5.1.1 XML簡介119
5.1.2 使用System.Xml120
5.2 JSON數據抽取123
5.2.1 JSON簡介123
5.2.2 使用Newtonsoft.Json125
5.3 綜合實例1:天氣爬蟲128
5.3.1 問題描述與分析128
5.3.2 爬蟲設計131
5.3.3 爬蟲實現131
5.4 綜合實例2:音樂爬蟲136
5.4.1 問題描述136
5.4.2 逆向分析138
5.4.3 爬蟲設計141
5.4.4 爬蟲實現143
第6章數據存儲150
6.1 數據的維度150
6.2 文件存儲151
6.2.1 低維數據存儲151
6.2.2 高維數據存儲154
6.3 數據庫存儲158
6.3.1 MySQL的安裝和配置158
6.3.2 將數據存入MySQL162
第7章爬蟲控制167
7.1 爬蟲搜索方式167
7.1.1 深度優先搜索167
7.1.2 廣度優先搜索171
7.1.3 性能分析172
7.2 爬蟲控制器175
7.2.1 控制器設計175
7.2.2 控制器的實現176
7.2.3 實時控制器179
7.3 綜合實例:站內文章爬蟲183
7.3.1 爬蟲設計183
7.3.2 爬蟲實現185
7.3.3 爬蟲測試186
第8章多線程爬蟲189
8.1 多線程機制189
8.1.1 Thread對象189
8.1.2 BackgroundWorker控件192
8.1.3 系統線程池194
8.2 多線程爬蟲197
8.2.1 實現方法197
8.2.2 性能對比199
8.3 自定義線程池202
8.3.1 線程池設計202
8.3.2 線程池實現203
8.3.3 性能測試206
8.4 多線程爬蟲控制器207
8.4.1 多線程控制器實現207
8.4.2 訪問序列分析210
第9章使用代理213
9.1 代理機制213
9.1.1 使用WebProxy對象213
9.1.2 使用全局代理215
9.2 自定義代理池217
9.2.1 代理池設計217
9.2.2 代理池實現218
第10章模擬瀏覽器225
10.1 瀏覽器的工作原理225
10.1.1 網頁解析過程225
10.1.2 常見的瀏覽器內核226
10.2 使用瀏覽器內核226
10.2.1 Trident內核226
10.2.2 Gecko內核231
10.3 綜合實例:網頁翻譯爬蟲240
10.3.1 問題描述240
10.3.2 爬蟲設計241
10.3.3 爬蟲實現242
10.3.4 算法改進247
第11章可視化模板配置250
11.1 可視化模板配置方法250
11.1.1 抽取原理250
11.1.2 模板表示253
11.1.3 可視化配置254
11.2 綜合實例:可視化網頁文章
爬蟲259
11.2.1 爬蟲設計259
11.2.2 爬蟲實現260
參考文獻264
