大語言模型極速入門:技術與應用

董政

  • 出版商: 機械工業
  • 出版日期: 2025-07-01
  • 售價: $474
  • 語言: 簡體中文
  • 頁數: 246
  • ISBN: 7111783549
  • ISBN-13: 9787111783541
  • 相關分類: 人工智慧
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書將帶讀者走進大語言模型的神奇世界,即使讀者沒有深厚的技術背景,也能輕松理解。本書首先從基礎概念講起,詳細介紹大語言模型及其技術發展脈絡。接著探討大語言模型在日常生活中的廣泛應用,比如智能客服、文本自動生成、語言翻譯等。此外,本書還會客觀地分析大語言模型的局限性和可能面臨的挑戰,例如準確性問題、倫理考慮等,幫助讀者形成全面而理性的認識。 ,本書還會展望大語言模型的未來發展趨勢,探討它們將如何為讀者所在的行業賦能。本書適合對新技術充滿好奇的普通讀者,以及希望跟上時代步伐的知識追求者閱讀。

作者簡介

董政,計算機軟件與理論專業博士,2016年畢業於覆旦大學。研究生期間,師從人工智能學者危輝教授,在上海市智能信息處理重點實驗室的認知模型與算法課題組從事研究工作,研究方向包括視覺的腦神經機制和計算機建模,以及圖像中的物體形狀識別和定位等,研究成果發表於認知計算和神經網絡等領域的期刊。畢業後,進入微軟亞太科技有限公司雲計算與人工智能事業部,擔任 軟件工程師,將專家系統、機器學習算法、大語言模型智能體等人工智能技術應用於雲服務運維優化,深耕人工智能理論研究和工程實踐

目錄大綱


前言
第 1 章 早期的神經語言模型  1
1.1 神經網絡模型之前的時代  2
1.1.1 基於規則的方法面臨的困難 5
1.1.2 借助統計方法的力量   6
1.1.3 樸素統計模型的極限   8
1.2 神經網絡如何理解語言   10
1.2.1 化解統計方法的維度災難 11
1.2.2 神經網絡模型如何學習  13
1.2.3 困惑度——量化評估語言模型的預測能力17
1.2.4 詞嵌入——從詞匯到可計算的數值向量 19
第 2 章 深度學 的自然語言處理  25
2.1 擅長處理文本序列的循環神經網絡 27
2.1.1 保持記憶的循環連接  28
2.1.2 控制記憶的門控單元  29
2.1.3 自然語言的編碼器和解碼器 33
2.2 Transformer“只需要註意力”  40
2.2.1 註意力機制的起源   42
2.2.2 “只需要註意力”   44
2.2.3 像檢索數據庫一樣查看記憶 46
2.2.4 使用 Transformer 對語言進行編碼和解碼49
第 3 章 預訓練語言模型的興起   53
3.1 通過預訓練提升語言模型能力 54
3.1.1 預訓練——視覺深度學習模型的成熟經驗54
VIII
3.1.2 代 GPT 模型   56
3.1.3 GPT 和 BERT——選擇不同道路 60
3.2 語言模型如何勝任多種任務  67
3.2.1 多任務模型先驅的啟示  68
3.2.2 GPT-2 模型   71
3.2.3 適用於多種語言的字節對編碼 75
3.2.4 高質量的 WebText 數據集  80
第 4 章 大語言模型能力湧現   87
4.1 學會如何學習——元學習和語境學習能力88
4.1.1 GPT-3 模型   92
4.1.2 稀疏註意力——大模型的高效註意力機制94
4.1.3 語境學習能力顯現   98
4.2 模型規模和能力的縮放定律 109
4.2.1 龍貓法則    114
4.2.2 能力湧現現象   115
4.3 大語言模型學會寫代碼  117
4.3.1 Codex 模型——程序員的智能助手 120
4.3.2 檢驗語言模型的編程能力  123
第 5 章 服從指令的大語言模型  128
5.1 InstructGPT—— 聽話的語言模型 129
5.1.1 從人類反饋中學習   134
5.1.2 近端策略優化算法   138
5.2 指令微調方法    143
5.3 拒 采樣——蒸餾提純符合人類偏好的模型    146
5.4 從 AI 反饋中學習   147
第 6 章 開源大語言模型   151
6.1 GPT-J 和 GPT-Neo——開源社區的率先探索    152
6.2 Pile 開源大語言模型訓練數據集 154
6.3 開源“羊駝”LLaMA 模型 156
6.3.1 SwiGLU——改進神經網絡激活函數 158
IX
6.3.2 適合 長文本的 RoPE  160
6.3.3 分組查詢註意力   163
6.3.4 評估數據汙染問題   165
6.3.5 聽話的 Llama 2 模型 167
6.4 ChatGLM——國產大語言模型的開源先鋒169
6.4.1 研發歷程    169
6.4.2 語言模型的架構選擇  170
6.4.3 GLM-130B 模型   172
6.4.4 悟道語料庫   176
第 7 章 探秘大語言模型的並行訓練178
7.1 並行訓練一瞥    178
7.2 GPipe 流水線    180
7.3 PipeDream 流水線  182
7.3.1 高吞吐率的 PipeDream-2BW 流水線 184
7.3.2 節省內存的 PipeDream-Flush 流水線     184
第 8 章 大語言模型應用   186
8.1 常見應用場景    186
8.2 利用外部知識庫打敗“幻覺”  187
8.2.1 檢索增強生成   188
8.2.2 句子編碼器模型——編碼知識庫 190
8.2.3 小世界模型——實現快速知識檢索    196
8.2.4 混合檢索——重拾傳統檢索技術 201
8.3 思維鏈——思維過程的草稿紙  204
8.4 使用工具拓展能力範圍  206
8.4.1 學習如何使用外部工具  207
8.4.2 ReAct——連續自主行動的智能體209
8.5 專屬的智能體   212
第 9 章 大語言模型前沿展望   215
9.1 多模態大模型——有眼睛和耳朵的大語言模型    215
9.1.1 視覺語言模型——從 CLIP 模型到火烈鳥模型    216
X
9.1.2 Llama 3 模型的語音輸入輸出能力    221
9.2 關於安全和隱私的挑戰  223
9.2.1 不同類型的安全和隱私問題  224
9.2.2 如何應對安全和隱私風險  227
9.3 大語言模型距離強人工智能還有多遠     228
9.3.1 世界模擬器——Sora 視頻生成模型 229
9.3.2 JEPA——世界模型  231
9.3.3 草莓模型 o1——學會“深思熟慮” 233
中英文對照表     238
參考文獻    241
ChatGPT 引發 AI 熱潮,本書從傳統自然語言處理講起,梳理大語言模型發展脈絡,解析神經網絡、Transformer 等核心技術,涵蓋預訓練、能力湧現等關鍵內容,兼顧原理與應用,助初學者入門、從業者進階,是理解大語言模型的實用指南。