從零開始寫大模型(從神經網絡到Transformer)

王雙 牟晨 王昊怡

相關主題

商品描述

本書結合豐富的圖示和 程序示例,全面、系統地介 紹大模型的基本原理,並通 過一個極簡大語言模型構建 案例帶領讀者上手實踐。本 書學習門檻極低,即便零基 礎的讀者,也能在本書的引 領下比較輕松地掌握大模型 的基本知識體系,並理解大 模型的基本原理,從而為日 後進一步學習打好基礎。本 書提供配套教學視頻、源代 碼和教學PPT等超值配套資 源,以方便讀者高效、直觀 地學習。 本書共20章,分為5篇。 第1篇神經網絡快速入門, 介紹神經網絡的基礎和結構 ;第2篇Transformer架構基 礎,介紹幾種經典的編解碼 架構、Tokenization基礎知 識、Transformer架構涉及 的數學概念;第3篇 Transformer模型剖析,首 先介紹大語言模型的概念和 參數規模,然後介紹 Transformer的詞匯輸入模 塊、註意力機制模塊和輸出 模塊, 介紹基於 Transformer架構的模型訓 練過程、推理過程、優化方 法和超參數;第4篇 Transformer進階,首先介 紹如何使用Python實現一個 簡單的Transformer架構, 然後介紹BERT和GPT兩種 經典大語言模型, 給出 一些大公司的高頻面試 題;第5篇GPT模型 體 驗之MiniMind,詳細介紹一 個開源極簡大語言模型 MiniMind的項目情況、代碼 結構,以及安裝、訓練、微 調與推理過程等,帶領讀者 體驗大語言模型的完整構建 過程。 本書內容豐富,通俗易 懂,案例典型,講解深入淺 出,特別適合零基礎學 模型的讀者閱讀,也適合IT 領域或其他領域向AI轉型但 缺乏基礎的程序員、工程師 等相關從業人員閱讀,還適 合高等院校和培訓機構作為 大模型的入門教材或教學參 考書。

作者簡介

王雙,博士畢業於 。現任教於武漢紡織大學,自2017年起教授人工智能相關課程。作為武漢可學智能科技有限公司創始人,帶領“可學AI”團隊深入研究PINN與AIGC的相關理論與應用,在團隊的集體努力下與市場需求緊密對接,積累了大量的經驗與案例,全流程掌握了AI繪畫的相關原理、工具、開發技術與應用。

目錄大綱

第1篇 神經網絡快速入門
第1章 神經網絡基礎
1.1 神經元
1.1.1 神經元仿生模型
1.1.2 神經網絡的學習過程
1.1.3 基本概念與術語
1.2 手算神經網絡
1.2.1 建立4個神經元網絡
1.2.2 手推訓練過程
1.3 手推前向傳播
1.4 手推反向傳播
第2章 手搓神經網絡
2.1 寫一個神經網絡並訓練
2.1.1 前向傳播的實現
2.1.2 反向傳播的實現
2.2 經典神經網絡——CNN
2.2.1 卷積操作
2.2.2 池化層
2.2.3 全連接層
2.2.4 全過程展示
2.2.5 簡單的CNN代碼示例
2.3 經典神經網絡——RNN
2.3.1 手算體驗極簡RNN
2.3.2 RNN的工作原理
2.3.3 幾種經典結構
2.3.4 經典的RNN變體——LSTM
2.3.5 LSTM的變體——Peephole連接、Coupled和GRU
2.3.6 簡單的RNN代碼示例
第2篇 Transformer架構基礎
第3章 編解碼架構概述
3.1 數據處理的高效郵遞員——Auto encoder
3.1.1 基本原理
3.1.2 算法描述
3.1.3 代碼示例
3.2 溫故而知新——VAE
3.2.1 基本原理
3.2.2 算法描述
3.2.3 代碼示例
3.3 深度學習中的貓鼠遊戲——GAN
3.3.1 基本原理
3.3.2 算法描述
3.3.3 代碼示例
3.4 變形金剛——Transformer
3.4.1 基本原理
3.4.2 算法描述
3.4.3 代碼示例
第4章 Tokenization基礎
4.1 文字轉數字
4.1.1 標記器
4.1.2 獨熱編碼
4.2 詞嵌入
4.2.1 詞嵌入簡介
4.2.2 Word2Vec詞嵌入方法
第5章 Transformer架構的數學基礎
5.1 向量和矩陣相乘的變換
5.1.1 向量坐標系的轉換
5.1.2 向量與坐標系的關系
5.2 空間變化的性質
5.2.1 二次型空間變換
5.2.2 特殊情況下的行列式
5.3 層歸一化
第3篇 Transformer模型剖析
第4篇 Transformer進階
第5篇 GPT模型 體驗之MiniMind
本書結合豐富的圖示和 程序示例,全面、系統地介 紹大模型的基本原理,並通 過一個極簡大語言模型構建 案例帶領讀者上手實踐。本 書學習門檻極低,即便零基 礎的讀者,也能在本書的引 領下比較輕松地掌握大模型 的基本知識體系,並理解大 模型的基本原理,從而為日 後進一步學習打好基礎。本 書提供配套教學視頻、源代 碼和教學PPT等超值配套資 源,以方便讀者高效、直觀 地學習。 本書共20章,分為5篇。 第1篇神經網絡快速入門, 介紹神經網絡的基礎和結構 ;第2篇Transformer架構基 礎,介紹幾種經典的編解碼 架構、Tokenization基礎知 識、Transformer架構涉及 的數學概念;第3篇 Transformer模型剖析,首 先介紹大語言模型的概念和 參數規模,然後介紹 Transformer的詞匯輸入模 塊、註意力機制模塊和輸出 模塊, 介紹基於 Transformer架構的模型訓 練過程、推理過程、優化方 法和超參數;第4篇 Transformer進階,首先介 紹如何使用Python實現一個 簡單的Transformer架構, 然後介紹BERT和GPT兩種 經典大語言模型, 給出 一些大公司的高頻面試 題;第5篇GPT模型 體 驗之MiniMind,詳細介紹一 個開源極簡大語言模型 MiniMind的項目情況、代碼 結構,以及安裝、訓練、微 調與推理過程等,帶領讀者 體驗大語言模型的完整構建 過程。 本書內容豐富,通俗易 懂,案例典型,講解深入淺 出,特別適合零基礎學 模型的讀者閱讀,也適合IT 領域或其他領域向AI轉型但 缺乏基礎的程序員、工程師 等相關從業人員閱讀,還適 合高等院校和培訓機構作為 大模型的入門教材或教學參 考書。