深度剖析ChatGLM(原理訓練微調與實戰)
- 出版商: 機械工業
- 出版日期: 2025-07-01
- 售價: $594
- 語言: 簡體中文
- 頁數: 288
- ISBN: 7111783824
- ISBN-13: 9787111783824
下單後立即進貨 (約4週~6週)
相關主題
商品描述
近年來,隨著大語言模型技術的迅猛發展,人工智能領域迎來了新的變革浪潮。ChatGLM作為一款雙語大語言模型,憑借其在多語言生成、精準對話理解和高效推理上的良好表現,成為了自然語言處理領域的重要代表。 本書以ChatGLM模型為核心,系統性地介紹了其從原理、訓練、微調到實際應用的全流程,全面解析了大語言模型的實現方法與優化策略。全書共分為12章,從基礎原理切入,涵蓋模型架構解析、訓練與微調實現、推理優化、部署集成與性能調優等關鍵技術,同時深入探討數據處理、多任務學習與遷移學習,以及API開發、Web應用搭建與雲端部署的完整方案。本書特別關註ChatGLM在客服、金融、醫療、教育等領域的創新應用,展現了其多樣化的適用能力,並以雙語對話系統為實戰案例,總結了從數據處理到系統部署的完整開發流程。 本書的特色在於理論與實踐並重,註重案例引導與操作指導,特別適合AI初學者、希望深入了解ChatGLM的工程師和研究者,以及希望學習大語言模型的高校師生使用。隨書附贈案例代碼、教學視頻及授課用PPT等海量學習資源,希望通過立體化的學習方式幫助廣大讀者從中獲得系統的知識與啟發。
作者簡介
馮洋,南京大學計算機科學與技術系副教授。2019年在加州大學歐文分校獲得博士學位。主要研究方向為覆雜軟件系統的質量保障及可信程序設計語言工程技術,研究課題包括大型覆雜軟件系統的質量保障問題及可信軟件基礎設施構建與工程技術問題。主持和參與了多項國家和省部級科研項目,包括國家重大專項計劃、自然科學基金面上項目和青年項目。近年來在軟件工程領域的ICSE、FSE、ASE、ISSTA、TSE、TOSEM、《中國科學》《軟件學報》等期刊和會議發表學術論文40余篇,獲得ACM傑出論文獎兩次。申請發明專利多項,部分專利成果已經在華為、百度等知名公司轉化應用。
目錄大綱
前言
第1部分 ChatGLM的概述與基礎原理
第1章 ChatGLM概述與原理詳解
1.1 ChatGLM的發展與應用背景
1.1.1 ChatGLM簡介與具體應用
1.1.2 對比傳統NLP模型與ChatGLM的優勢
1.2 基於Transformer架構的自註意力機制
1.2.1 Transformer簡介
1.2.2 詳解Transformer編碼器解碼器架構
1.2.3 詳解ChatGLM中的自註意力機制
1.2.4 Transformer中的多頭註意力機制
1.3 ChatGLM的架構分析
1.3.1 ChatGLM模型的結構設計
1.3.2 ChatGLM與GPT、BERT模型的異同
1.4 ChatGLM的應用場景與技術優勢
1.4.1 ChatGLM在對話系統中的具體應用
1.4.2 ChatGLM對自然語言理解與生成的影響
第2章 ChatGLM模型的訓練流程與技術要點
2.1 訓練數據的采集與清洗
2.1.1 語料庫的選擇與構建方法
2.1.2 數據清洗與標準化技術
2.1.3 噪聲數據與異常值處理
2.2 訓練任務的設定與損失函數
2.2.1 回歸與分類任務的設計
2.2.2 適配性損失函數的選擇與實現
2.3 模型訓練的實現流程
2.3.1 PyTorch與TensorFlow簡介
2.3.2 PyTorch與TensorFlow訓練框架的選擇與搭建
2.3.3 模型初始化與優化器的選擇
2.4 分布式訓練與高效計算
2.4.1 數據並行與模型並行的實現細節
2.4.2 混合精度訓練(FP16)的應用與性能提升
第3章 ChatGLM的硬件環境與訓練加速
3.1 高效硬件配置與訓練需求
3.1.1 推薦的GPU與TPU硬件配置
3.1.2 內存與存儲的優化技巧
3.2 分布式訓練框架:Horovod與DeepSpeed
3.2.1 分布式訓練框架簡介
3.2.2 Horovod的使用與優化方法
3.2.3 DeepSpeed對大語言模型的優化
3.3 訓練監控與調優工具
3.3.1 訓練監控的目的
3.3.2 使用TensorBoard進行訓練監控
3.3.3 Hyperparameter優化工具與技術
第2部分 ChatGLM的優化與高級技術
第4章 ChatGLM的微調策略與方法
4.1 微調的基本原理與應用場景
4.1.1 預訓練與微調的區別
4.1.2 微調的核心目標與技術要點
4.2 領域適應微調技術
4.2.1 針對特定領域的數據集微調
4.2.2 領域特定嵌入與調優策略
4.3 ChatGLM的自適應微調方法
4.3.1 動態學習率與早停策略的使用
4.3.2 負樣本生成與調整
4.4 微調的常見問題與調優技巧
4.4.1 微調過程中的過擬合問題
4.4.2 針對微調任務的優化技巧
第5章 ChatGLM的生成任務優化與文本生成
5.1 生成式任務與非生成式任務的區別
5.1.1 生成式任務與分類任務的關鍵差異
5.1.2 Text to Text生成與Seq2Seq架構
5.2 ChatGLM在文本生成中的應用
5.2.1 自回歸與自編碼生成模型的優缺點
5.2.2 基於自註意力的生成優化策略
5.3 Beam Search與Top k采樣的優化
5.3.1 Beam Search與Top k采樣任務簡介
5.3.2 生成過程中的采樣方法與性能
5.3.3 控制生成內容的多樣性與連貫性
5.4 生成式模型調優與文本質量提升
5.4.1 提高文本生成的質量與準確度
5.4.2 避免模型生成偏見信息的方法
第6章 ChatGLM的優化與性能提升技術
6.1 模型壓縮與蒸餾技術
6.1.1 模型壓縮與蒸餾技術簡介
6.1.2 參數剪枝與低秩分解的實現
6.1.3 知識蒸餾方法與應用實例
6.2 動態計算圖與推理優化
6.2.1 計算圖簡介與初步實現
6.2.2 動態計算圖與靜態計算圖的對比
6.2.3 ChatGLM推理中的性能瓶頸分析與優化
6.3 TensorRT與ONNX的推理加速
6.3.1 什麼是推理加速
6.3.2 ChatGLM模型的ONNX轉換與優化
6.3.3 使用TensorRT進行推理加速與量化
6.4 節省內存與計算資源的策略
6.4.1 分層微調與多任務學習的內存優化
6.4.2 通過混合精度訓練減少內存消耗
第7章 ChatGLM的多任務學習與遷移學習
7.1 多任務學習的基本原理與應用
7.1.1 如何設計多任務學習模型
7.1.2 ChatGLM如何在多任務中共享學習
7.2 遷移學習在ChatGLM中的應用
7.2.1 微調預訓練模型與領域特定任務
7.2.2 遷移已有知識進行新任務學習的方法
7.3 多模態學習:圖像與文本融合
7.3.1 融合視覺信息與文本信息的技術
7.3.2 多模態對話系統的應用
7.4 ChatGLM與跨領域任務的適配
7.4.1 領域轉移學習的挑戰與解決方案
7.4.2 使用少量標註數據進行跨領域遷移學習
第8章 ChatGLM的調優與故障排除
8.1 調優原則與技巧
8.1.1 如何選擇合適的優化器與學習率
8.1.2 調整批量大小與訓練