Transformer模型開發從0到1——原理深入與項目實踐

李瑞濤

  • 出版商: 清華大學
  • 出版日期: 2025-04-01
  • 售價: $474
  • 語言: 簡體中文
  • ISBN: 7302684162
  • ISBN-13: 9787302684169
  • 下單後立即進貨 (約4週~6週)

  • Transformer模型開發從0到1——原理深入與項目實踐-preview-1
  • Transformer模型開發從0到1——原理深入與項目實踐-preview-2
  • Transformer模型開發從0到1——原理深入與項目實踐-preview-3
Transformer模型開發從0到1——原理深入與項目實踐-preview-1

相關主題

商品描述

"本書以實戰項目為主線,以理論基礎為核心,引導讀者漸進式地學習Transformer模型。 本書分為5篇共17章。Transformer模型基礎篇(第1~5章)重點介紹Transformer模型框架。把Transformer模型掰開,從最基礎的輸入出發,按照模型框架,一點一點走進Transformer模型的內部,直到最終的模型輸出;Transformer模型NLP領域篇(第6章和第7章)重點介紹Transformer模型在自然領域中的應用,瞭解ChatGPT的往事今生;Transformer模型電腦視覺篇(第8~10章)重點介紹Transformer模型在電腦視覺任務中的應用,讓Transformer模型可以看到真實的世界;Transformer模型進階篇(第11~13章)重點介紹Transformer模型在多模態領域上的應用,以及與其他模型的混合模型;Transformer模型實戰篇(第14~17章)從環境搭建到NLP領域,電腦視覺領域,音頻領域等的代碼實戰,徹底講解Transformer模型的運行機制。 本書的每個章節、每個知識點都有對應的代碼解析與精美圖片展示,讓讀者能夠更加容易理解Transformer模型的各個核心知識點。 本書既適合初學者入門,精心設計的案例對於工作多年的開發者也有參考價值,並可作為高等院校和培訓機構相關專業的教學參考書。 "

目錄大綱

本書源碼

Transformer模型基礎篇

第1章Transformer綜述

1.1Transformer是什麽

1.1.1Transformer模型的工作原理

1.1.2Transformer模型的編碼器與解碼器簡介

1.1.3Transformer模型編碼器層

1.1.4Transformer模型解碼器層

1.1.5Transformer模型殘差連接與數據歸一化

1.2Transformer模型框架

1.2.1Transformer模型的詞嵌入

1.2.2Transformer模型的位置編碼

1.2.3Transformer模型的編碼器與解碼器

1.2.4Transformer模型的最終輸出

1.2.5Transformer模型的註意力機制

1.2.6Transformer模型的多頭註意力機制

1.2.7Transformer模型的前饋神經網絡

1.3本章總結

第2章Transformer模型的輸入與輸出

2.1Transformer模型的詞嵌入

2.1.1Transformer 模型詞嵌入的概念

2.1.2Transformer模型詞嵌入的代碼實現

2.2Transformer 模型的位置編碼

2.2.1Transformer 模型位置編碼的計算過程

2.2.2Transformer模型位置編碼的正餘弦函數

2.2.3Transformer 模型位置編碼的代碼實現

2.3Transformer模型解碼器的輸入

2.4Transformer模型中的掩碼矩陣

2.4.1Transformer模型的Pad Mask

2.4.2Transformer模型的 Sequence Mask

2.4.3Transformer 模型Sequence Mask & Pad Mask的代碼實現

2.5Transformer模型的輸出

2.5.1Transformer 模型的線性層

2.5.2Transformer模型輸出數據的Softmax 操作

2.5.3Transformer模型輸出數據的Softmax代碼實現

2.6本章總結

第3章Transformer模型的註意力機制

3.1Transformer模型註意力機制的概念

3.1.1Transformer模型的自註意力機制

3.1.2Transformer模型註意力機制中兩個矩陣乘法的含義

3.1.3Transformer模型的Softmax操作

3.1.4Transformer模型的註意力矩陣

3.2Transformer模型Q、K、V三矩陣

3.2.1Transformer模型Q、K、V三矩陣的來歷

3.2.2Transformer模型Q、K、V矩陣註意力機制的運算

3.3Transformer模型註意力機制中的縮放點積

3.3.1Transformer模型註意力機制的問題

3.3.2Transformer模型註意力機制的縮放點積

3.4Transformer模型註意力機制的代碼實現過程

3.5Transformer模型多頭註意力機制

3.5.1Transformer模型多頭註意力機制的計算公式

3.5.2Transformer模型Qi、Ki、Vi的來歷

3.5.3Transformer模型多頭註意力機制的計算

3.6Transformer 模型多頭註意力機制的代碼實現

3.6.1Transformer模型多頭註意力機制的代碼

3.6.2Transformer模型多頭註意力矩陣可視化

3.7本章總結

第4章Transformer模型的殘差連接,歸一化與前饋神經網絡

4.1Transformer模型批歸一化與層歸一化

4.1.1Transformer模型批歸一化

4.1.2Transformer 模型層歸一化

4.1.3Transformer模型的層歸一化操作

4.1.4Transformer模型層歸一化的代碼實現

4.2殘差神經網絡

4.2.1ResNet殘差神經網絡

4.2.2Transformer模型的殘差連接

4.3Transformer模型前饋神經網絡

4.3.1Transformer模型前饋神經網絡的計算公式

4.3.2激活函數

4.3.3Transformer模型ReLU激活函數

4.3.4Transformer模型前饋神經網絡的代碼實現

4.4本章總結

第5章Transformer模型搭建

5.1Transformer模型編碼器

5.1.1Transformer模型編碼器組成

5.1.2Transformer模型編碼器層的代碼實現 

5.1.3搭建Transformer模型編碼器

5.2Transformer模型解碼器

5.2.1Transformer模型解碼器組成

5.2.2Transformer模型解碼器層的代碼實現 

5.2.3搭建Transformer模型解碼器

5.3搭建Transformer模型

5.3.1Transformer模型組成

5.3.2Transformer模型的代碼實現

5.4Transformer模型訓練過程

5.5Transformer模型預測過程

5.6Transformer模型Force Teach

5.7Transformer 模型與RNN模型

5.7.1RNN循環神經網絡

5.7.2Transformer模型與RNN模型對比

5.8本章總結

Transformer模型NLP領域篇

第6章Transformer 編碼器模型: BERT模型

6.1BERT模型結構

6.1.1BERT模型簡介

6.1.2BERT模型構架

6.2BERT模型的輸入部分

6.2.1BERT模型的Token Embedding

6.2.2BERT模型的位置編碼

6.2.3BERT模型的序列嵌入

6.2.4BERT模型的輸入

6.3BERT模型Transformer編碼器框架

6.4BERT模型的輸出

6.4.1BERT模型的MLM預訓練任務

6.4.2BERT模型的NSP預訓練任務

6.5BERT模型的微調任務

6.6BERT模型的代碼實現

6.6.1BERT模型的特徵嵌入

6.6.2BERT模型的自註意力機制

6.6.3BERT模型的多頭註意力機制

6.6.4BERT模型的前饋神經網絡

6.6.5BERT模型的編碼器層

6.6.6BERT模型搭建

6.7本章總結

第7章Transformer 解碼器模型: GPT系列模型

7.1GPT模型結構

7.1.1GPT模型簡介

7.1.2GPT模型構架

7.2GPT模型的輸入部分

7.2.1GPT模型的Token Embedding

7.2.2GPT模型的位置編碼

7.3GPT模型的整體框架

7.4GPT模型的無監督預訓練

7.5GPT模型的微調任務

7.5.1GPT模型微調

7.5.2GPT模型監督有標簽輸入

7.6GPT2模型

7.6.1GPT2模型簡介

7.6.2GPT2模型的Zeroshot

7.7GPT3模型

7.7.1GPT3模型框架

7.7.2GPT3模型下游任務微調

7.7.3GPT3模型預訓練數據集

7.8本章總結

Transformer模型電腦視覺篇

第8章電腦視覺之捲積神經網絡

8.1捲積神經網絡的概念

8.1.1捲積神經網絡的填充、步長和通道數

8.1.2捲積神經網絡的捲積核

8.1.3捲積神經網絡捲積層

8.1.4捲積神經網絡池化層

8.1.5捲積神經網絡全連接層

8.1.6捲積神經網絡全局平均池化

8.1.7捲積神經網絡的感受野

8.1.8捲積神經網絡的下採樣

8.1.9神經網絡中的DropOut

8.2捲積神經網絡

8.2.1捲積神經網絡模型搭建

8.2.2捲積神經網絡LeNet5模型搭建

8.2.3捲積神經網絡LeNet5模型的代碼實現

8.3捲積神經網絡LeNet5手寫數字識別

8.3.1MNIST數據集

8.3.2LeNet5手寫數字模型訓練

8.3.3LeNet5手寫數字模型預測

8.4本章總結

第9章Transformer視覺模型: Vision Transformer模型

9.1Vision Transformer模型

9.1.1Vision Transformer模型簡介

9.1.2Vision Transformer模型的數據流

9.2Vision Transformer模型的Patch Embedding與位置編碼

9.2.1Vision Transformer模型的Patch Embedding

9.2.2Vision Transformer模型Patch Embedding的代碼實現

9.2.3Vision Transformer模型的位置編碼

9.2.4Vision Transformer模型位置編碼的代碼實現

9.3Vision Transformer模型編碼器層

9.3.1Vision Transformer與標準Transformer編碼器層的區別

9.3.2Vision Transformer模型多頭註意力機制的代碼實現

9.3.3Vision Transformer模型前饋神經網絡的代碼實現

9.3.4搭建Vision Transformer模型編碼器

9.4Vision Transformer輸出層的代碼實現

9.5搭建Vision Transformer模型

9.6本章總結

第10章Transformer視覺模型: Swin Transformer模型

10.1Swin Transformer模型

10.1.1Swin Transformer模型簡介

10.1.2Swin Transformer模型的數據流

10.1.3Swin Transformer窗口註意力機制的框架模型

10.2Swin Transformer模型窗口分割

10.2.1Swin Transformer模型的Patch Embedding

10.2.2Swin Transformer模型Patch Embedding的代碼實現

10.2.3Swin Transformer模型窗口分割與窗口復原的代碼實現

10.3Swin Transformer模型Patch Merging

10.3.1Swin Transformer模型的Patch Merging操作

10.3.2Swin Transformer模型Patch Merging的代碼實現

10.4Swin Transformer模型的位置編碼

10.4.1Swin Transformer模型位置編碼的來源

10.4.2Swin Transformer模型位置編碼的代碼實現

10.5Swin Transformer模型移動窗口與掩碼矩陣

10.5.1Swin Transformer模型的移動窗口

10.5.2Swin Transformer模型的掩碼矩陣

10.5.3Swin Transformer模型移動窗口的代碼實現

10.5.4Swin Transformer模型掩碼矩陣的代碼實現

10.6Swin Transformer模型窗口註意力與移動窗口註意力

10.6.1Swin Transformer模型窗口註意力機制代碼

10.6.2Swin Transformer模型移動窗口註意力機制代碼

10.7Swin Transformer模型計算復雜度

10.8本章總結

Transformer模型進階篇

第11章CNN+Transformer視覺模型:  DETR模型

11.1DETR模型

11.1.1DETR模型框架

11.1.2DETR模型的Transformer框架

11.2DETR模型的代碼實現

11.2.1DETR模型搭建

11.2.2基於DETR預訓練模型的對象檢測

11.3本章總結

第12章Transformer多模態模型

12.1多模態模型簡介

12.2Transformer多模態模型: VILT模型

12.2.1VILT模型簡介

12.2.2VILT模型的代碼實現

12.3Transformer多模態模型: CLIP模型

12.3.1CLIP模型簡介

12.3.2CLIP模型的代碼實現

12.4本章總結

第13章優化Transformer模型註意力機制

13.1稀疏註意力機制

13.1.1稀疏註意力機制簡介

13.1.2稀疏註意力機制的代碼實現

13.2Flash Attention

13.2.1標準註意力機制計算過程

13.2.2Flash Attention註意力機制的計算過程

13.2.3Flash Attention註意力機制的代碼實現

13.3MoE混合專家模型

13.3.1混合專家模型簡介

13.3.2混合專家模型的代碼實現

13.4RetNet模型

13.4.1RetNet模型的多尺度保留機制

13.4.2RetNet模型的遞歸表示

13.4.3RetNet模型的代碼實現

13.5本章總結

Transformer模型實戰篇

第14章Transformer模型環境搭建

14.1本地Python環境搭建

14.1.1Python環境安裝

14.1.2Python安裝第三方庫

14.2Python雲端環境搭建

14.2.1百度飛槳AI Studio雲端環境搭建

14.2.2Google Colab雲端環境搭建

14.3本章總結

第15章Transformer模型自然語言處理領域實例

15.1基於Transformer模型的機器翻譯實例

15.1.1基於Transformer模型的機器翻譯模型訓練

15.1.2基於Transformer模型的機器翻譯模型推理過程

15.2基於Transformer模型的BERT模型應用實例

15.2.1Hugging Face Transformers庫

15.2.2基於Transformers庫的BERT應用實例

15.2.3訓練一個基於BERT模型的文本多分類任務模型

15.3本章總結

第16章Transformer模型電腦視覺領域實例

16.1Vision Transformer模型預訓練

16.1.1Vision Transformer模型預訓練數據集

16.1.2Vision Transformer模型預訓練權重

16.1.3訓練Vision Transformer模型

16.1.4使用Vision Transformer預訓練模型進行對象分類

16.2Swin Transformer模型實例

16.2.1Swin Transformer預訓練模型

16.2.2訓練 Swin Transformer模型

16.2.3使用Swin Transformer預訓練模型進行對象分類

16.3使用DETR預訓練模型進行對象檢測

16.4本章總結

第17章Transformer模型音頻領域實例

17.1語音識別模型

17.1.1Whisper語音識別模型簡介

17.1.2Whisper語音識別模型的代碼實現

17.2語音合成模型

17.2.1ChatTTS語音合成模型簡介

17.2.2ChatTTS語音合成模型的代碼實現

17.3本章總結

參考文獻

致謝

最後瀏覽商品 (20)