大模型算法基礎:Transformers原理與應用

田永林、張亞洲、王飛躍

  • 出版商: 清華大學
  • 出版日期: 2025-12-01
  • 售價: $299
  • 語言: 簡體中文
  • ISBN: 7302705798
  • ISBN-13: 9787302705796
  • 相關分類: Large language model
  • 下單後立即進貨 (約4週~6週)

  • 大模型算法基礎:Transformers原理與應用-preview-1
  • 大模型算法基礎:Transformers原理與應用-preview-2
  • 大模型算法基礎:Transformers原理與應用-preview-3
大模型算法基礎:Transformers原理與應用-preview-1

相關主題

商品描述

"在人工智能迅猛發展的背景下,Transformer作為大模型的核心架構,已成為推動智能技術變革的重要引擎。本書梳理了Transformer的技術脈絡與典型應用,旨在幫助讀者全面理解這一劃時代的信息機器。 全書共6章,系統闡述Transformer模型的核心機制與演進路徑。第1章介紹自註意力機制等基礎構件; 第2~4章分別探討Transformer在自然語言處理、計算機視覺和多模態學習中的應用,涵蓋BERT、ViT、CLIP等代表性模型; 第5章聚焦自動駕駛場景,展示Transformer在感知、預測與規劃等模塊中的統一建模潛力; 第6章則討論基於Transformer的AI智能體構建,展望其在通用智能系統中的未來發展方向。 本書適合人工智能、計算機科學、認知科學等相關領域的高校師生、研究人員、開發工程師及行業從業者閱讀,也為關註AI技術發展的管理者與決策者提供了清晰的技術脈絡與應用圖景。 "

目錄大綱

目錄

第1章Transformer的基本原理

1.1Transformer編碼器結構

1.1.1自註意力層

1.1.2前饋層

1.1.3位置編碼

1.1.4層歸一化

1.1.5殘差連接

1.2Transformer解碼器結構

1.2.1互註意力層

1.2.2序列掩碼

1.3Transformer特點分析

1.3.1Transformer與CNN、RNN的區別和聯系

1.3.2Transformer的優劣勢分析

小結

參考文獻

第2章語言Transformer

2.1自然語言處理

2.1.1自然語言理解

2.1.2自然語言生成

2.1.3自回歸與自編碼模型

2.1.4Word2Vec模型 

2.1.5基於RNN的Seq2Seq方法

2.1.6基於註意力的Seq2Seq方法

2.2基於Transformer的自然語言處理模型

2.2.1BERT模型

2.2.2GPT模型

2.2.3XLNet模型

2.2.4BART模型

2.2.5T5模型

2.2.6MoE模型

2.2.7Switch Transformer模型

2.3預訓練語言模型

2.3.1預訓練方式

2.3.2預訓練任務

2.4微調與遷移

2.4.1微調方法

2.4.2Prompt方法

2.5大語言模型

2.5.1大模型訓練策略

2.5.2大模型訓練平臺

2.5.3大語言模型微調策略

小結

參考文獻

第3章視覺Transformer

3.1ViT模型

3.1.1基本結構

3.1.2圖像序列化

3.1.3類別token

3.1.4位置編碼

3.1.5編碼器結構

3.2視覺Transformer的一般框架及變體

3.2.1視覺Transformer的一般框架

3.2.2計算代價

3.2.3表達能力

3.2.4結構設計

3.3基於Transformer的目標檢測模型

3.3.1DETR方法

3.3.2YOLOS方法

3.3.3Pix2Seq方法

3.3.4研究總結

3.4基於Transformer的圖像分割模型

3.4.1SETR方法

3.4.2SegFormer方法

3.4.3Segmenter方法

3.4.4MaskFormer方法

3.4.5QueryInst方法

3.4.6ISTR方法

3.4.7Panoptic SegFormer方法

3.4.8研究總結

3.5基於Transformer的預訓練視覺模型

3.5.1iGPT方法

3.5.2BEIT方法

3.5.3MAE方法

3.5.4SAM模型

小結

參考文獻

第4章多模態Transformer

4.1多模態數據類型及序列化方法

4.1.1視覺數據序列化

4.1.2語言數據序列化

4.1.3點雲數據序列化

4.2多模態數據融合

4.2.1對齊與非對齊式融合

4.2.2不同時期的融合

4.2.3對稱與非對稱式融合方法

4.3多模態預訓練

4.3.1多模態掩碼預測

4.3.2跨模態關聯任務

4.3.3跨模態生成

4.3.4多模態順序預測

4.4多模態預訓練模型

4.4.1ViLBERT模型

4.4.2CLIP模型

4.4.3Flamingo模型

4.4.4DALLE 2模型

4.4.5BLIP模型

4.4.6BLIP2模型

4.4.7InstructBLIP模型

4.4.8MiniGPT4模型

4.4.9MetaTransformer模型

4.4.10LLaVA模型

小結

參考文獻

第5章Transformer在自動駕駛中的應用

5.1基於Transformer的自動駕駛感知

5.1.1基於Transformer的多模態融合感知

5.1.2基於Transformer的BEV感知

5.1.3基於Transformer的占用網格預測

5.2基於Transformer的自動駕駛軌跡預測

5.2.1mmTransformer模型

5.2.2AgentFormer模型

5.2.3WayFormer模型

5.3基於Transformer的自動駕駛行為與軌跡規劃

5.3.1HMIL模型

5.3.2PlanT模型

5.3.3VTT模型

5.4基於Transformer的端到端自動駕駛

5.4.1UniAD模型

5.4.2FusionAD模型

5.4.3VistaGPT模型

小結

參考文獻

第6章基於Transformer的AI智能體

6.1AI智能體組成與結構

6.1.1AI智能體配置模塊: 角色塑造

6.1.2AI智能體記憶模塊: 知識接入 

6.1.3AI智能體工具模塊: 功能拓展

6.1.4AI智能體感知模塊: 信息分析

6.1.5AI智能體規劃模塊: 決策生成

6.1.6AI智能體行動模塊: 動作產生

6.2典型的AI智能體系統

6.2.1LangChain

6.2.2HuggingGPT

6.2.3CHATDEV

6.2.4RoboGen

6.2.5Stanford AI Town

小結

參考文獻