生成式人工智能

陶建華,赫然,劉偲

  • 生成式人工智能-preview-1
  • 生成式人工智能-preview-2
  • 生成式人工智能-preview-3
生成式人工智能-preview-1

相關主題

商品描述

" 本書深入探討了生成式人工智能(Generative Artificial Intelligence,簡稱GAI或AIGC)這一前沿領域,為讀者提供了全面而深入的理解。首先明確生成式人工智能的定義,並闡述其與傳統人工智能的區別和聯系。回顧生成式人工智能的起源、發展歷程以及重要裏程碑事件,如ChatGPT等標誌性產品的推出。介紹深度學習在生成式人工智能中的核心作用,包括神經網絡、自監督學習等關鍵技術。詳細闡述生成式對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型(Diffusion Models)等主流生成模型的工作原理和優缺點。探討大型語言模型的構建、訓練和優化方法,以及它們在自然語言處理領域的廣泛應用。分析生成式人工智能在文本創作、翻譯、摘要、問答等方面的應用案例和效果。介紹生成式人工智能在圖像生成、視頻合成、動畫制作等領域的**進展和實際應用。探討生成式人工智能在音頻處理、音樂創作等方面的潛力和挑戰。探討生成式人工智能在倫理、隱私、版權等方面的挑戰和應對策略。"

作者簡介

陶建華,清華大學自動化系長聘教授,國家傑出青年基金獲得者,國家萬人領軍人才,享受國務院政府特殊津貼。主要從事情感計算、智能語音處理、模式識別等方向,在TPAMI、TASLP、TAFFC、TSMCB等國內外主要期刊或會議上發表論文300余篇,先後負責國家863重點項目、國家重點研發計劃項目、國家自然科學基金重點項目、中科院先導項目、國家發改委項目等重點科研任務。研究成果獲2022年中國人工智能學會吳文俊技術發明特等獎(排名一)、2021年中國電子學會技術發明一等獎(排名一)、2018年中國電子學會技術進步一等獎(排名三),並多次在國內外學術會議上獲獎。目前擔任中國計算機學會會士和常務理事、中國人工智能學會常務理事兼情感智能專委常務副主任、中國圖象圖形學會理事兼人機交互專委主任等,並擔任IEEE TASLP、Speech Communication、計算機研究與發展等多個主要國內外期刊編委,同時擔任Interspeech、ACII、IEEE ICSP、IEEE MLSP等會議大會主席或程序委員會主席。

目錄大綱

 

 

目錄

 

第 1章生成式人工智能概述 ...........................................1 

1.1生成式人工智能的定義 ........................................ 1 

1.2生成式人工智能的發展歷程 ................................. 2 

1.3生成式人工智能的核心技術 ................................. 3 

1.4生成式人工智能的應用場景 ................................. 4 

1.5生成式人工智能的挑戰 ........................................ 6 

1.6習題................................................................... 8

第 2章生成模型基礎 .....................................................9 

2.1生成模型的基本概念 ........................................... 9 

2.1.1生成模型的歷史背景................................. 9 

2.1.2生成模型的定義 ....................................... 9 

2.1.3生成模型的應用場景............................... 10 

2.2生成模型與判別模型的區別 ............................... 10 

2.2.1判別模型的定義 ..................................... 10 

2.2.2生成模型與判別模型的核心區別 .............. 11 

2.2.3生成模型與判別模型的優缺點 ................. 12 

2.3生成模型的數學基礎 ......................................... 13 

2.3.1概率分布 ............................................... 13 

2.3.2聯合分布與條件分布............................... 14 

2.3.3馬爾可夫鏈 ............................................ 14 

2.3.4貝葉斯定理 ............................................ 14 

2.3.5最大似然估計......................................... 15 

2.3.6變分推斷 ............................................... 15 

2.4常見生成模型簡介............................................. 19 

2.4.1生成對抗網絡......................................... 19 

2.4.2變分自編碼器......................................... 20 

2.4.3自回歸模型 ............................................ 21 

2.4.4流模型................................................... 21 

2.4.5擴散模型 ............................................... 21 

2.5生成模型的評估指標 ......................................... 22 

2.5.1客觀評估指標......................................... 23 

2.5.2主觀評估指標......................................... 23 

2.6概率圖模型概述 ..................................................................................... 24 

2.6.1概率圖模型的定義和基本概念 ...................................................... 24 

2.6.2歷史背景和發展 .......................................................................... 25 

2.7隱馬爾可夫模型 ..................................................................................... 25 

2.7.1 HMM的基本原理 ....................................................................... 26 

2.7.2隱馬爾可夫模型的概率計算.......................................................... 27 

2.7.3 HMM的推斷問題 ....................................................................... 28 

2.8馬爾可夫隨機場 ..................................................................................... 30 

2.8.1馬爾可夫隨機場的性質和定義 ...................................................... 30 

2.8.2條件隨機場 ................................................................................. 32 

2.9貝葉斯網絡............................................................................................ 33 

2.9.1貝葉斯網絡的基本概念 ................................................................ 33 

2.9.2結構學習和參數學習.................................................................... 34 

2.9.3貝葉斯網絡的推斷 ....................................................................... 36 

2.10自回歸模型 .......................................................................................... 38 

2.10.1自回歸模型的定義.................................................................... 38 

2.10.2自回歸模型的核心思想 ............................................................. 39 

2.10.3自回歸模型與循環神經網絡 ...................................................... 40 

2.11習題 .................................................................................................... 42

第 3章 Transformer .......................................................................................43 

3.1 Transformer的背景與動機 ..................................................................... 43 

3.1.1編碼器........................................................................................ 44 

3.1.2解碼器........................................................................................ 44 

3.2註意力機制............................................................................................ 44 

3.2.1自註意力的計算步驟.................................................................... 44 

3.2.2 Transformer的優勢..................................................................... 45 

3.2.3多頭註意力的計算 ....................................................................... 46 

3.2.4註意力變體存在的問題 ................................................................ 47 

3.2.5註意力變體的內容 ....................................................................... 47 

3.3 Transformer的結構 ............................................................................... 50 

3.3.1混合專家結構.............................................................................. 51 

3.3.2位置編碼 .................................................................................... 53 

3.4 Transformer的應用結構......................................................................... 55 

3.4.1編碼器結構 ................................................................................. 56 

3.4.2僅解碼器結構.............................................................................. 58 

3.4.3編碼器-解碼器結構...................................................................... 60 

目錄 IX 

3.5本章小結 ............................................................................................... 61 

3.6習題...................................................................................................... 62

第 4章生成對抗網絡 ........................................................................................63 

4.1生成對抗網絡的基本介紹........................................................................ 63 

4.1.1 概述 ........................................................................................... 63 

4.1.2 原理 ........................................................................................... 64 

4.1.3 網絡結構 .................................................................................... 66 

4.2 GAN的訓練與優化................................................................................ 66 

4.2.1  GAN的訓練 ............................................................................... 67 

4.2.2  GAN的訓練難點 ........................................................................ 69 

4.2.3  GAN訓練策略的改進 ................................................................. 71 

4.2.4 訓練速度 .................................................................................... 74 

4.2.5 評價指標 .................................................................................... 74 

4.3 常見的 GAN變體.................................................................................. 76  CGAN........................................................................................ 77

4.3.1 DCGAN..................................................................................... 77

4.3.2 AttGAN..................................................................................... 78

4.3.3 

 

4.3.4  CycleGAN.................................................................................. 79  DALL-E ..................................................................................... 79

4.3.5 

 

4.4 GAN的應用.......................................................................................... 80 

4.4.1 圖像域........................................................................................ 80 

4.4.2 語言和音頻域.............................................................................. 82 

4.4.3 視頻域........................................................................................ 82 

4.4.4 其他應用 .................................................................................... 83 

4.5 GAN的前沿進展 ................................................................................... 84 

4.5.1 前沿進展 .................................................................................... 84 

4.5.2 改進方向 .................................................................................... 86 

4.6本章小結 ............................................................................................... 87 

4.7習題...................................................................................................... 88

第 5章變分自編碼器 ........................................................................................89 

5.1變分自編碼器的基本原理........................................................................ 89 

5.1.1 自編碼器介紹.............................................................................. 89 

5.1.2  VAE介紹 ................................................................................... 91 

5.2變分自編碼器的結構與訓練 .................................................................... 97 

5.2.1 變分自編碼器的結構.................................................................... 98 

5.2.2  VAE訓練 ................................................................................... 99 

5.2.3評價指標 .................................................................................. 100 

5.2.4 VAE難點 ................................................................................. 101 

5.3條件變分自編碼器................................................................................ 102 

5.4變分自編碼器的應用 ............................................................................ 103 

5.4.1圖像生成與重建 ........................................................................ 103 

5.4.2異常檢測 .................................................................................. 104 

5.4.3自然語言處理............................................................................ 104 

5.4.4無監督表示學習 ........................................................................ 104 

5.5 VAE的最新進展.................................................................................. 104 

5.5.1最新進展 .................................................................................. 105 

5.5.2改進方向 .................................................................................. 106 

5.6本章小結 ............................................................................................. 108 

5.7習題.................................................................................................... 109

第 6章流模型 ................................................................................................111 

6.1流模型概述.......................................................................................... 111 

6.1.1歸一化流 .................................................................................. 112 

6.1.2連續歸一化流............................................................................ 112 

6.1.3流匹配...................................................................................... 113 

6.2歸一化流 ............................................................................................. 113 

6.2.1歸一化流的基本原理.................................................................. 113 

6.2.2歸一化流的逼近能力.................................................................. 116 

6.2.3歸一化流的實際應用.................................................................. 117 

6.3有限階流模型 ...................................................................................... 118 

6.3.1自回歸流 .................................................................................. 119 

6.3.2線性流...................................................................................... 125 

6.3.3殘差流...................................................................................... 128 

6.3.4經典流模型 ............................................................................... 131 

6.4連續變化流模型 ................................................................................... 134 

6.4.1連續變化流的定義 ..................................................................... 134 

6.4.2連續變化流的計算和優化 ........................................................... 136 

6.5流模型的最新進展................................................................................ 137 

6.5.1基於 Glow的模型 ..................................................................... 137 

6.5.2重整化流 .................................................................................. 141 

6.5.3流匹配...................................................................................... 144 

6.6本章小結 ............................................................................................. 148 

6.7習題.................................................................................................... 149 

目錄 XI

第 7章能量模型.............................................................................................151 

7.1能量模型簡介 ...................................................................................... 151 

7.1.1預備知識 .................................................................................. 152 

7.1.2能量模型的定義 ........................................................................ 152 

7.1.3玻爾茲曼機和受限玻爾茲曼機 .................................................... 153 

7.1.4霍普菲爾德網絡 ........................................................................ 156 

7.2能量模型的訓練和推斷 ......................................................................... 158 

7.2.1基於馬爾可夫鏈蒙特卡洛的最大似然訓練方法 ............................. 158 

7.2.2基於分數匹配的訓練方法 ........................................................... 161 

7.2.3基於去噪分數匹配的訓練方法 .................................................... 161 

7.2.4基於切片分數匹配的訓練方法 .................................................... 163 

7.3能量模型的應用 ................................................................................... 164 

7.3.1能量模型在計算機視覺中的應用 ................................................. 164 

7.3.2能量模型在機器人學中的應用 .................................................... 167 

7.4本章小結 ............................................................................................. 169 

7.5習題.................................................................................................... 169

第 8章擴散模型.............................................................................................171 

8.1擴散模型的基本原理 ............................................................................ 171 

8.2擴散過程與反向過程 ............................................................................ 172 

8.2.1擴散過程 .................................................................................. 172 

8.2.2反向過程 .................................................................................. 173 

8.3擴散模型的訓練與優化 ......................................................................... 175 

8.3.1擴散模型的訓練與采樣過程........................................................ 175 

8.3.2訓練過程的優化 ........................................................................ 176 

8.3.3采樣過程的優化 ........................................................................ 178 

8.4擴散模型的應用 ................................................................................... 181 

8.4.1條件控制生成............................................................................ 181 

8.4.2隱空間擴散模型及其變體 ........................................................... 185 

8.4.3擴散模型的微調技術.................................................................. 189 

8.5基於 Transformer架構的擴散模型 ........................................................ 193 

8.6本章小結 ............................................................................................. 195 

8.7習題.................................................................................................... 195

第 9章大語言模型 .........................................................................................197 

9.1大語言模型概述 ................................................................................... 197 

9.1.1語言模型的發展歷程.................................................................. 197 

9.1.2大語言模型的特點 ..................................................................... 198 

9.1.3大語言模型的應用和前景 ........................................................... 200 

9.2大語言模型的訓練與優化...................................................................... 201 

9.2.1預訓練...................................................................................... 201 

9.2.2指令微調 .................................................................................. 204 

9.2.3對齊微調 .................................................................................. 205 

9.2.4參數高效微調............................................................................ 208 

9.3大語言模型的應用................................................................................ 210 

9.3.1推理與規劃 ............................................................................... 210 

9.3.2知識管理 .................................................................................. 211 

9.3.3文本生成與內容創作.................................................................. 212 

9.3.4其他應用實例............................................................................ 213 

9.4多模態大模型 ...................................................................................... 216 

9.4.1概述 ......................................................................................... 216 

9.4.2模型結構 .................................................................................. 217 

9.4.3訓練策略和數據準備.................................................................. 218 

9.4.4代表性的多模態大模型—— LLaVA ............................................. 220 

9.4.5多模態大模型的評估.................................................................. 222 

9.5大語言模型的未來發展 ......................................................................... 222 

9.5.1更小更高效的模型 ..................................................................... 223 

9.5.2大小模型協同............................................................................ 223 

9.5.3改進 LLM的使用 ..................................................................... 223 

9.6本章小結 ............................................................................................. 223 

9.7習題.................................................................................................... 224

第 10章多模態生成及應用 .............................................................................225 

10.1多模態生成模型概述........................................................................... 225 

10.1.1定義與基本原理 ..................................................................... 226 

10.1.2基於圖文對比預訓練的多模態生成 .......................................... 226 

10.1.3基於大語言模型的多模態生成 ................................................. 227 

10.2文-文與文-圖生成模型 ........................................................................ 227 

10.2.1文-文生成模型 ....................................................................... 227 

10.2.2文-圖生成模型 ....................................................................... 230 

10.3音頻生成模型..................................................................................... 234 

10.3.1基於規則的音頻生成 .............................................................. 234 

10.3.2統計學習下的音頻生成 ........................................................... 235 

10.3.3基於深度學習的音頻生成人工智能 .......................................... 235 

10.3.4大模型時代下的音頻生成........................................................ 237 

目錄 XIII 

10.4視頻生成模型..................................................................................... 238 

10.4.1文-視頻生成 .......................................................................... 238 

10.4.2文圖-視頻生成 ....................................................................... 240 

10.4.3高分辨率、長時視頻生成........................................................ 241 

10.5多模態生成的前沿研究 ....................................................................... 244 

10.5.1人工智能 for Science .............................................................. 244 

10.5.2跨領域應用案例 ..................................................................... 246 

10.6本章小結 ........................................................................................... 248 

10.7習題 .................................................................................................. 249

第 11章生成式人工智能的評估、安全與倫理...................................................251 

11.1生成式人工智能的評估 ....................................................................... 251 

11.1.1評估角度 ............................................................................... 251 

11.1.2生成模型評估方法概述 ........................................................... 252 

11.1.3圖像生成的評估方法 .............................................................. 255 

11.1.4文本生成的評估方法 .............................................................. 256 

11.1.5音頻生成的評估方法 .............................................................. 258 

11.1.6圖像視頻生成的評估方法........................................................ 260 

11.1.7評估生成模型的挑戰 .............................................................. 261 

11.2倫理與社會影響 ................................................................................. 263 

11.2.1生成式人工智能的倫理問題 .................................................... 263 

11.2.2算法偏見和歧視風險 .............................................................. 264 

11.2.3內容濫用的學術倫理風險........................................................ 264 

11.2.4智能沖擊人類主體性風險........................................................ 265 

11.2.5生成模型的社會影響 .............................................................. 266 

11.2.6生成式人工智能的監管與政策 ................................................. 268 

11.2.7負責任的生成式人工智能........................................................ 270 

11.2.8生成式人工智能的公平性與透明性 .......................................... 271 

11.3本章小結 ........................................................................................... 272 

11.4習題 .................................................................................................. 272

第 12章課程實踐設計 ....................................................................................273 

12.1文本生成實踐..................................................................................... 273 

12.1.1數據到文本的生成.................................................................. 273 

12.1.2文本到文本生成 ..................................................................... 276 

12.1.3對話系統 ............................................................................... 277 

12.2語音生成實踐..................................................................................... 278 

12.2.1語音生成的背景和傳統方法 .................................................... 279 

12.2.2拼接合成 ............................................................................... 280 

12.2.3現代語音生成模型.................................................................. 283 

12.3圖像生成實踐..................................................................................... 287 

12.3.1基於 c-GAN的條件圖像生成.................................................. 287 

12.3.2從 GAN到 c-GAN ................................................................ 288 

12.3.3基於擴散模型的文本條件圖像生成 .......................................... 290 

12.4視頻生成實踐..................................................................................... 291 

12.4.1文生視頻 ............................................................................... 291 

12.4.2圖生視頻 ............................................................................... 293

參考文獻 ...........................................................................................................295