AI大模型系統開發技術
鞠時光,周從華,宋香梅,王秀紅
相關主題
商品描述
"本書系統介紹行業AI大模型系統開發技術。全書共10章,主要內容包括AI大模型概述、AI基礎算法、深度學習技術與工具、生成式模型、數據標註技術、註意力機制、Transformer架構解析、自然語言處理中的預訓練模型、微調技術以及大語言模型系統安全技術。本書內容邏輯清晰、循序漸進,從理論到實踐,從算法到工程實現,引導讀者深入理解和逐步掌握行業AI大模型開發關鍵技術和方法。 本書適合作為高等學校理工科研究生、計算機相關專業高年級本科生相關專業課教材,也可供行業AI大模型系統開發人員參考。 "
作者簡介
鞠時光,博士,現任江蘇大學教學督導。曾任江蘇大學和墨西哥國立理工大學教授、博士生導師,江蘇大學計算機學院院長。主持完成多項國家自然科學基金、863及江蘇省科技項目,多次獲得江蘇省、機械部等科技進步獎。曾任中國圖象圖形學學會理事,中國計算機學會系統軟件專業委員會委員,以及中國計算機學會信息保密專業委員會委員等。
目錄大綱
目錄
第1章AI大模型概述1
1.1AI大模型的定義1
1.2AI大模型發展概況2
1.2.1語言模型演進3
1.2.2AI大模型家族4
1.2.3國內外AI大模型研究現狀5
1.3AI大模型基礎設施7
1.3.1計算資源8
1.3.2存儲系統8
1.3.3網絡帶寬8
1.3.4AI算法和優化技術9
第2章AI基礎算法10
2.1AI基礎算法概述10
2.1.1基於集合論的算法10
2.1.2基於概率統計的算法12
2.1.3基於圖論的算法14
2.1.4基於空間幾何的算法17
2.1.5基於演化計算的算法17
2.1.6基於人工神經網絡的算法19
2.2專家系統19
2.2.1專家系統的一般結構20
2.2.2專家系統的構建21
2.2.3專家系統的發展21
2.3機器學習25
2.4擬人機器學習30
2.4.1擬人機器學習的概念30
2.4.2擬人系統的瓶頸問題302.5人工情感計算30
2.5.1文本情感計算31
2.5.2語音情感計算32
2.5.3視覺情感計算33
第3章深度學習技術與工具35
3.1詞向量模型35
3.1.1滑動窗口36
3.1.2Word2Vec模型36
3.1.3Word2Vec訓練流程41
3.2卷積神經網絡43
3.2.1卷積神經網絡結構43
3.2.2卷積神經網絡的特點46
3.2.3卷積神經網絡在自然語言處理領域中的應用47
3.3循環神經網絡48
3.3.1典型的循環神經網絡單向傳播48
3.3.2雙向循環神經網絡50
3.3.3深度循環神經網絡50
3.3.4循環神經網絡的主要應用領域53
第4章生成式模型54
4.1混合高斯模型54
4.2隱馬爾可夫模型56
4.2.1隱馬爾可夫模型的定義56
4.2.2隱馬爾可夫模型的表示57
4.2.3隱馬爾可夫模型的使用58
4.2.4維特比算法59
4.3受限玻爾茲曼機60
4.3.1受限玻爾茲曼機模型結構60
4.3.2配分函數61
4.4深度置信網絡63
4.4.1深度置信網絡模型結構63
4.4.2深度置信網絡的目標函數64
4.4.3深度置信網絡的訓練64
4.5Seq2Seq生成模型65
4.5.1語義向量只作為初始狀態參與運算65
4.5.2語義向量參與解碼的全過程66
4.5.3循環神經網絡輸出層使用激活函數67
4.5.4Seq2Seq模型的訓練過程68
4.6變分自編碼器69
4.6.1變分自編碼器模型結構69
4.6.2變分下界的求法70
4.6.3重參數化70
4.7生成對抗網絡71
4.7.1生成對抗網絡的基本原理72
4.7.2生成對抗網絡的訓練方法72
4.7.3深度卷積生成對抗網絡73
4.7.4基於殘差網絡的結構73
〖3〗AI大模型系統開發技術目錄〖3〗第5章數據標註技術76
5.1數據標註的定義與分類76
5.1.1標註的分類76
5.1.2數據標註的應用場景78
5.1.3數據標註的任務79
5.2數據標註的流程及工具80
5.2.1標註流程80
5.2.2標註內容81
5.2.3標註工具81
5.3數據標註實例——情感分析82
5.3.1情感分析概述82
5.3.2情感分析中的數據標註83
第6章註意力機制85
6.1註意力模型86
6.1.1引入註意力的編碼器解碼器框架86
6.1.2註意力的基本原理87
6.2自註意力機制90
6.2.1單輸出90
6.2.2自註意力操作過程92
6.3多頭自註意力機制94
6.3.1單輸入多頭註意力94
6.3.2多輸入多頭註意力95
6.3.3位置編碼96
6.3.4殘差連接方法96
6.4多類別註意力機制98
6.4.1空間註意力機制98
6.4.2通道註意力機制98
6.4.3空間和通道註意力機制的融合99
第7章Transformer架構解析101
7.1Transformer的原始框架101
7.2輸入輸出嵌入層102
7.2.1BPE算法103
7.2.2位置編碼103
7.3編碼部分104
7.3.1掩碼張量104
7.3.2Transformer 的自註意力模塊105
7.3.3Transformer 的多頭註意力機制107
7.3.4前饋連接層107
7.3.5規範化層108
7.3.6殘差連接109
7.4解碼部分109
7.4.1解碼器的作用109
7.4.2解碼器多頭註意力機制109
7.5輸出處理層110
第8章自然語言處理中的預訓練模型112
8.1預訓練模型概述112
8.1.1預訓練模型的結構113
8.1.2預訓練模型壓縮技術114
8.1.3預訓練任務115
8.1.4多模態預訓練模型115
8.2預訓練模型適應下遊任務116
8.2.1遷移學習116
8.2.2模型遷移方法117
8.3預訓練模型在自然語言處理任務中的應用118
8.3.1一般評價基準118
8.3.2問答118
8.3.3情感分析118
8.3.4命名實體識別119
8.3.5機器翻譯119
8.3.6摘要119
8.3.7對抗檢測和防禦119
8.4預訓練語言模型GPT120
8.5預訓練語言模型BERT120
8.5.1BERT模型結構121
8.5.2嵌入操作層121
8.5.3編碼層122
8.5.4預測層122
8.6大模型部署122
8.6.1大模型部署框架122
8.6.2大模型部署步驟123
8.6.3大模型部署方式123
第9章微調技術124
9.1微調概述124
9.2微調神經網絡的方法125
9.3自適應微調126
9.4提示學習126
9.4.1提示學習微調模型的基本組成126
9.4.2提示學習微調流程127
9.5增量微調模型128
9.6基於提示的微調129
第10章大語言模型系統安全技術135
10.1大語言模型面臨的安全挑戰135
10.1.1大語言模型應用面臨的威脅135
10.1.2對抗攻擊的類型137
10.2大語言模型應用的安全核心組成138
10.2.1數據安全138
10.2.2模型安全138
10.2.3基礎設施安全138
10.2.4倫理道德138
10.3大語言模型的對抗攻擊與防禦139
10.3.1建立安全框架139
10.3.2建設大語言模型應用安全開發策略139
10.3.3大語言模型應用防護方案141
10.3.4應對攻擊的策略141
10.3.5大語言模型部署過程中的安全防禦策略142
思考題144
附錄ABERT源碼分析145
參考文獻155