Transformer模型開發從0到1——原理深入與項目實踐
李瑞濤
相關主題
商品描述
目錄大綱
本書源碼
Transformer模型基礎篇
第1章Transformer綜述
1.1Transformer是什麽
1.1.1Transformer模型的工作原理
1.1.2Transformer模型的編碼器與解碼器簡介
1.1.3Transformer模型編碼器層
1.1.4Transformer模型解碼器層
1.1.5Transformer模型殘差連接與數據歸一化
1.2Transformer模型框架
1.2.1Transformer模型的詞嵌入
1.2.2Transformer模型的位置編碼
1.2.3Transformer模型的編碼器與解碼器
1.2.4Transformer模型的最終輸出
1.2.5Transformer模型的註意力機制
1.2.6Transformer模型的多頭註意力機制
1.2.7Transformer模型的前饋神經網絡
1.3本章總結
第2章Transformer模型的輸入與輸出
2.1Transformer模型的詞嵌入
2.1.1Transformer 模型詞嵌入的概念
2.1.2Transformer模型詞嵌入的代碼實現
2.2Transformer 模型的位置編碼
2.2.1Transformer 模型位置編碼的計算過程
2.2.2Transformer模型位置編碼的正餘弦函數
2.2.3Transformer 模型位置編碼的代碼實現
2.3Transformer模型解碼器的輸入
2.4Transformer模型中的掩碼矩陣
2.4.1Transformer模型的Pad Mask
2.4.2Transformer模型的 Sequence Mask
2.4.3Transformer 模型Sequence Mask & Pad Mask的代碼實現
2.5Transformer模型的輸出
2.5.1Transformer 模型的線性層
2.5.2Transformer模型輸出數據的Softmax 操作
2.5.3Transformer模型輸出數據的Softmax代碼實現
2.6本章總結
第3章Transformer模型的註意力機制
3.1Transformer模型註意力機制的概念
3.1.1Transformer模型的自註意力機制
3.1.2Transformer模型註意力機制中兩個矩陣乘法的含義
3.1.3Transformer模型的Softmax操作
3.1.4Transformer模型的註意力矩陣
3.2Transformer模型Q、K、V三矩陣
3.2.1Transformer模型Q、K、V三矩陣的來歷
3.2.2Transformer模型Q、K、V矩陣註意力機制的運算
3.3Transformer模型註意力機制中的縮放點積
3.3.1Transformer模型註意力機制的問題
3.3.2Transformer模型註意力機制的縮放點積
3.4Transformer模型註意力機制的代碼實現過程
3.5Transformer模型多頭註意力機制
3.5.1Transformer模型多頭註意力機制的計算公式
3.5.2Transformer模型Qi、Ki、Vi的來歷
3.5.3Transformer模型多頭註意力機制的計算
3.6Transformer 模型多頭註意力機制的代碼實現
3.6.1Transformer模型多頭註意力機制的代碼
3.6.2Transformer模型多頭註意力矩陣可視化
3.7本章總結
第4章Transformer模型的殘差連接,歸一化與前饋神經網絡
4.1Transformer模型批歸一化與層歸一化
4.1.1Transformer模型批歸一化
4.1.2Transformer 模型層歸一化
4.1.3Transformer模型的層歸一化操作
4.1.4Transformer模型層歸一化的代碼實現
4.2殘差神經網絡
4.2.1ResNet殘差神經網絡
4.2.2Transformer模型的殘差連接
4.3Transformer模型前饋神經網絡
4.3.1Transformer模型前饋神經網絡的計算公式
4.3.2激活函數
4.3.3Transformer模型ReLU激活函數
4.3.4Transformer模型前饋神經網絡的代碼實現
4.4本章總結
第5章Transformer模型搭建
5.1Transformer模型編碼器
5.1.1Transformer模型編碼器組成
5.1.2Transformer模型編碼器層的代碼實現
5.1.3搭建Transformer模型編碼器
5.2Transformer模型解碼器
5.2.1Transformer模型解碼器組成
5.2.2Transformer模型解碼器層的代碼實現
5.2.3搭建Transformer模型解碼器
5.3搭建Transformer模型
5.3.1Transformer模型組成
5.3.2Transformer模型的代碼實現
5.4Transformer模型訓練過程
5.5Transformer模型預測過程
5.6Transformer模型Force Teach
5.7Transformer 模型與RNN模型
5.7.1RNN循環神經網絡
5.7.2Transformer模型與RNN模型對比
5.8本章總結
Transformer模型NLP領域篇
第6章Transformer 編碼器模型: BERT模型
6.1BERT模型結構
6.1.1BERT模型簡介
6.1.2BERT模型構架
6.2BERT模型的輸入部分
6.2.1BERT模型的Token Embedding
6.2.2BERT模型的位置編碼
6.2.3BERT模型的序列嵌入
6.2.4BERT模型的輸入
6.3BERT模型Transformer編碼器框架
6.4BERT模型的輸出
6.4.1BERT模型的MLM預訓練任務
6.4.2BERT模型的NSP預訓練任務
6.5BERT模型的微調任務
6.6BERT模型的代碼實現
6.6.1BERT模型的特徵嵌入
6.6.2BERT模型的自註意力機制
6.6.3BERT模型的多頭註意力機制
6.6.4BERT模型的前饋神經網絡
6.6.5BERT模型的編碼器層
6.6.6BERT模型搭建
6.7本章總結
第7章Transformer 解碼器模型: GPT系列模型
7.1GPT模型結構
7.1.1GPT模型簡介
7.1.2GPT模型構架
7.2GPT模型的輸入部分
7.2.1GPT模型的Token Embedding
7.2.2GPT模型的位置編碼
7.3GPT模型的整體框架
7.4GPT模型的無監督預訓練
7.5GPT模型的微調任務
7.5.1GPT模型微調
7.5.2GPT模型監督有標簽輸入
7.6GPT2模型
7.6.1GPT2模型簡介
7.6.2GPT2模型的Zeroshot
7.7GPT3模型
7.7.1GPT3模型框架
7.7.2GPT3模型下游任務微調
7.7.3GPT3模型預訓練數據集
7.8本章總結
Transformer模型電腦視覺篇
第8章電腦視覺之捲積神經網絡
8.1捲積神經網絡的概念
8.1.1捲積神經網絡的填充、步長和通道數
8.1.2捲積神經網絡的捲積核
8.1.3捲積神經網絡捲積層
8.1.4捲積神經網絡池化層
8.1.5捲積神經網絡全連接層
8.1.6捲積神經網絡全局平均池化
8.1.7捲積神經網絡的感受野
8.1.8捲積神經網絡的下採樣
8.1.9神經網絡中的DropOut
8.2捲積神經網絡
8.2.1捲積神經網絡模型搭建
8.2.2捲積神經網絡LeNet5模型搭建
8.2.3捲積神經網絡LeNet5模型的代碼實現
8.3捲積神經網絡LeNet5手寫數字識別
8.3.1MNIST數據集
8.3.2LeNet5手寫數字模型訓練
8.3.3LeNet5手寫數字模型預測
8.4本章總結
第9章Transformer視覺模型: Vision Transformer模型
9.1Vision Transformer模型
9.1.1Vision Transformer模型簡介
9.1.2Vision Transformer模型的數據流
9.2Vision Transformer模型的Patch Embedding與位置編碼
9.2.1Vision Transformer模型的Patch Embedding
9.2.2Vision Transformer模型Patch Embedding的代碼實現
9.2.3Vision Transformer模型的位置編碼
9.2.4Vision Transformer模型位置編碼的代碼實現
9.3Vision Transformer模型編碼器層
9.3.1Vision Transformer與標準Transformer編碼器層的區別
9.3.2Vision Transformer模型多頭註意力機制的代碼實現
9.3.3Vision Transformer模型前饋神經網絡的代碼實現
9.3.4搭建Vision Transformer模型編碼器
9.4Vision Transformer輸出層的代碼實現
9.5搭建Vision Transformer模型
9.6本章總結
第10章Transformer視覺模型: Swin Transformer模型
10.1Swin Transformer模型
10.1.1Swin Transformer模型簡介
10.1.2Swin Transformer模型的數據流
10.1.3Swin Transformer窗口註意力機制的框架模型
10.2Swin Transformer模型窗口分割
10.2.1Swin Transformer模型的Patch Embedding
10.2.2Swin Transformer模型Patch Embedding的代碼實現
10.2.3Swin Transformer模型窗口分割與窗口復原的代碼實現
10.3Swin Transformer模型Patch Merging
10.3.1Swin Transformer模型的Patch Merging操作
10.3.2Swin Transformer模型Patch Merging的代碼實現
10.4Swin Transformer模型的位置編碼
10.4.1Swin Transformer模型位置編碼的來源
10.4.2Swin Transformer模型位置編碼的代碼實現
10.5Swin Transformer模型移動窗口與掩碼矩陣
10.5.1Swin Transformer模型的移動窗口
10.5.2Swin Transformer模型的掩碼矩陣
10.5.3Swin Transformer模型移動窗口的代碼實現
10.5.4Swin Transformer模型掩碼矩陣的代碼實現
10.6Swin Transformer模型窗口註意力與移動窗口註意力
10.6.1Swin Transformer模型窗口註意力機制代碼
10.6.2Swin Transformer模型移動窗口註意力機制代碼
10.7Swin Transformer模型計算復雜度
10.8本章總結
Transformer模型進階篇
第11章CNN+Transformer視覺模型: DETR模型
11.1DETR模型
11.1.1DETR模型框架
11.1.2DETR模型的Transformer框架
11.2DETR模型的代碼實現
11.2.1DETR模型搭建
11.2.2基於DETR預訓練模型的對象檢測
11.3本章總結
第12章Transformer多模態模型
12.1多模態模型簡介
12.2Transformer多模態模型: VILT模型
12.2.1VILT模型簡介
12.2.2VILT模型的代碼實現
12.3Transformer多模態模型: CLIP模型
12.3.1CLIP模型簡介
12.3.2CLIP模型的代碼實現
12.4本章總結
第13章優化Transformer模型註意力機制
13.1稀疏註意力機制
13.1.1稀疏註意力機制簡介
13.1.2稀疏註意力機制的代碼實現
13.2Flash Attention
13.2.1標準註意力機制計算過程
13.2.2Flash Attention註意力機制的計算過程
13.2.3Flash Attention註意力機制的代碼實現
13.3MoE混合專家模型
13.3.1混合專家模型簡介
13.3.2混合專家模型的代碼實現
13.4RetNet模型
13.4.1RetNet模型的多尺度保留機制
13.4.2RetNet模型的遞歸表示
13.4.3RetNet模型的代碼實現
13.5本章總結
Transformer模型實戰篇
第14章Transformer模型環境搭建
14.1本地Python環境搭建
14.1.1Python環境安裝
14.1.2Python安裝第三方庫
14.2Python雲端環境搭建
14.2.1百度飛槳AI Studio雲端環境搭建
14.2.2Google Colab雲端環境搭建
14.3本章總結
第15章Transformer模型自然語言處理領域實例
15.1基於Transformer模型的機器翻譯實例
15.1.1基於Transformer模型的機器翻譯模型訓練
15.1.2基於Transformer模型的機器翻譯模型推理過程
15.2基於Transformer模型的BERT模型應用實例
15.2.1Hugging Face Transformers庫
15.2.2基於Transformers庫的BERT應用實例
15.2.3訓練一個基於BERT模型的文本多分類任務模型
15.3本章總結
第16章Transformer模型電腦視覺領域實例
16.1Vision Transformer模型預訓練
16.1.1Vision Transformer模型預訓練數據集
16.1.2Vision Transformer模型預訓練權重
16.1.3訓練Vision Transformer模型
16.1.4使用Vision Transformer預訓練模型進行對象分類
16.2Swin Transformer模型實例
16.2.1Swin Transformer預訓練模型
16.2.2訓練 Swin Transformer模型
16.2.3使用Swin Transformer預訓練模型進行對象分類
16.3使用DETR預訓練模型進行對象檢測
16.4本章總結
第17章Transformer模型音頻領域實例
17.1語音識別模型
17.1.1Whisper語音識別模型簡介
17.1.2Whisper語音識別模型的代碼實現
17.2語音合成模型
17.2.1ChatTTS語音合成模型簡介
17.2.2ChatTTS語音合成模型的代碼實現
17.3本章總結
參考文獻
致謝