AI程式設計班:Python×ChatGPT網路爬蟲從入門到精通

李傑臣

  • 出版商: 北京理工大學
  • 出版日期: 2024-02-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 裝訂: 平裝
  • ISBN: 757633360X
  • ISBN-13: 9787576333602
  • 相關分類: ChatGPTWeb-crawler 網路爬蟲
  • 下單後立即進貨 (約4週~6週)

商品描述

全書共11章,以下是各章的主要內容:
第1章:主要講解Python程式環境的建構方法及Python語言的基礎語法知識等內容。

第2章:主要講解AI工具的基本使用方法,以及如何在爬蟲程式設計中利用AI工具解決技術難題和提高開發效率。

第3章:
主要說明如何對網頁進行初步分析,包括查看網頁原始碼、
剖析網頁的結構、判斷網頁的類型等,為取得網頁原始碼並擷取資料奠定基礎。

第4、5章:
分別講解靜態網頁和動態網頁的爬取,主要內容包括如何使用Requests模組和Selenium模組取得網頁原始碼,
如何使用正規表示式和BeautifulSoup模組從網頁原始碼中提取所需資料。

第6章:
主要講解如何使用pandas等模組對所獲得的數據進行清洗、處理和分析,以提高數據的質量,並從數據中提取有價值的資訊。

第7章:
進一步探討Python網路爬蟲的進階技術,例如,用pandas模組爬取網頁表格資料、
用資料介面爬取資料、開髮帶有圖形使用者介面的爬蟲程式等。

第8~11章:
透過一系列實際應用場景來實踐並強化先前所學的知識。
這些場景涵蓋了財經、社群媒體、電商等多個領域的資料爬取,以及媒體檔案的下載。
讀者將深入體會如何靈活運用爬蟲技術解決實際問題,在遇到困難時如何借助AI工具“見招拆招”,從而踏上編程能力的持續自我提升之路。

 

目錄大綱

第1章Python入門
1.1 安裝Python程式設計環境
1.2 管理第三方模組
1.3 在程式碼中導入模組
1.4 測試Python程式設計環境
1.5 變數的命名與賦值
1.6 Python的基本資料型態:數字、字串
1.7 Python的基本資料型態:列表、字典
1.8 Python的運算符
1.9 Python的控制語句:if語句
1.10 Python的控制語句:for語句
1.11 Python的控制語句:while語句
1.12 Python的控制語句:try/except語句
1.13 Python控制語句的嵌套
1.14 Python的自訂函數
 
第2章AI輔助程式設計基礎
2.1 初識AI工具
2.2 與AI工具對話的基本操作
2.3 設計提示詞的原則與技巧
2.4 利用AI工具解讀和修改程式碼
2.5 利用AI工具分析報錯訊息
2.6 利用AI工具閱讀技術文檔
 
第3章網頁的初步分析
3.1 查看網頁原始碼:右鍵快捷選單
3.2 查看網頁原始碼:開發者工具
3.3 認識常見的HTML標籤
3.4 剖析網頁的結構
3.5 判斷網頁的類型
 
第4章靜態網頁的爬取
4.1 用Requests模組取得靜態網頁的原始碼
4.2 正規表示式的基礎知識
4.3 分析網頁原始碼並編寫正規表示式
4.4 用正規表示式從網頁原始碼擷取數據
4.5 CSS選擇器的基礎知識
4.6 分析網頁原始碼並編寫CSS選擇器
4.7 用BeautifulSoup模組從網頁原始碼擷取數據
4.8 用Requests模組下載文件
4.9 靜態網頁爬取實戰1:單頁爬取
4.10 靜態網頁爬取實戰2:多頁爬取
 
第5章動態網頁的爬取
5.1 搭建Selenium模組的運作環境
5.2 用Selenium模組取得網頁原始碼
5.3 操控瀏覽器:用XPath定位網頁元素
5.4 操控瀏覽器:用CSS選擇器定位網頁元素
5.5 操控瀏覽器:自動向下捲動頁面
5.6 操控瀏覽器:自動下載文件
5.7 操控瀏覽器:切換標籤頁
5.8 操控瀏覽器:切換至