深度學習現象導論:從感知機到大模型

許誌欽 張耀宇

  • 出版商: 電子工業
  • 出版日期: 2026-02-01
  • 售價: $774
  • 語言: 簡體中文
  • 頁數: 353
  • ISBN: 7121522268
  • ISBN-13: 9787121522260
  • 相關分類: DeepLearning
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書從現象出發,深入 淺出地介紹深度學習的基本 原理,包括神經網絡的輸出 和參數演化規律,以及大語 言模型如何逐步湧現出 覆 雜的推理。本書以呈現現象 為主,對讀者的理論要求低 ,但能抓住深度學習的核心 原理,對理解和訓練深度學 習都有重要幫助。

目錄大綱

第1章 深度學習介紹
1.1 數據擬合
1.2 神經網絡簡介
1.2.1 單個神經元如何感知信息
1.2.2 單層神經網絡
1.2.3 多層神經網絡
1.3 常用的損失函數
1.3.1 均方誤差損失
1.3.2 誤差損失
1.3.3 交叉熵
1.4 損失景觀
1.5 優化方法
1.5.1 梯度的計算——反向傳播
1.5.2 梯度下降法
1.5.3 帶隨機的優化方法
1.5.4 帶動量的梯度下降法
1.5.5 自適應優化算法
1.6 參數的初始化
1.7 沒有免費午餐定理
1.8 對深度學習的理解
1.8.1 深度學習的基本要素
1.8.2 深度學習理論
1.8.3 神經網絡的泛化之謎與隱式偏好
1.8.4 研究手段:現象驅動的理論研究
1.9 習題
第2章 維數災難
2.1 高維空間的特點
2.1.1 高維空間中數據的稀疏性
2.1.2 體積集中在表面的特性
2.1.3 距離的集中效應與正交性
2.1.4 高斯環帶效應
2.1.5 隨機投影降維
2.1.6 數據的線性可分性
2.2 維數災難的例子
2.2.1 高維數值積分
2.2.2 高維偏微分方程
2.2.3 高維函數逼近
2.3 克服維數災難的方法
2.3.1 蒙特卡羅方法
2.3.2 神經網絡方法
2.4 習題
第3章 數據與神經網絡結構
3.1 全連接網絡
3.2 殘差神經網絡
3.3 卷積神經網絡
3.3.1 圖像數據集的特征
3.3.2 初級視皮層的圖像處理結構
3.3.3 卷積神經網絡
3.4 語言任務與自然語言處理的主要範式
3.4.1 語言任務的特點
3.4.2 深度學習模型處理語言簡介
3.5 循環神經網絡
3.5.1 循環神經網絡基本單元
3.5.2 encoder-decoder架構的循環神經網絡
3.5.3 使用BPTT算法訓練循環神經網絡
3.5.4 長短時記憶網絡
3.6 Transformer
3.6.1 Transformer的基本原理
3.6.2 embedding
3.6.3 註意力層
3.6.4 前饋神經網絡層
3.6.5 輸出層
3.6.6 Transformer做推斷的詳細流程
3.7 生成模型
3.7.1 自編碼器
3.7.2 變分自編碼器
3.8 習題
第4章 頻率原則
4.1 頻率原則的低維實驗
4.1.1 神經網絡的“光滑”偏好
4.1.2 頻率和傅裏葉變換
4.1.3 頻率原則
4.2 從頻率原則理解神經網絡
4.2.1 實驗理解頻率原則的必要性
4.2.2 early-stopping的頻率角度理解
4.2.3 神經網絡的優勢與局限
4.3 習題
第5章 基於頻率原則設計高效神經網絡
5.1 多尺度神經網絡結構
5.1.1 結構介紹
5.1.2 基於子空間分解的神經網絡
5.2 神經輻射場
5.3 傅裏葉特征網絡
5.4 習題
第6章 頻率原則的機制分析
6.1 頻率原則的影響因素
6.1.1 初始化權值大小的影響
6.1.2 不同激活函數的影響
6.1.3 損失函數形式的影響
6.2 頻率原則的簡單分析
6.3 習題
第7章 相圖分析
7.1 神經網絡在不同初始化條件下的表現
7.2 神經網絡的線性與非線性行為
7.2.1 參數的演化分析
7.2.2 線性行為與非線性行為的界定
7.3 線性區域與非線性區域的劃分
7.3.1 狀態量的定義與動力學相變
7.3.2 實驗相圖的獲取
7.3.3 臨界區域和凝聚區域
7.4 習題
第8章 凝聚現象
8.1 凝聚現象的實驗
8.1.1 凝聚的過程
8.1.2 全連接網絡的凝聚現象
8.1.3 卷積神經網絡的凝聚現象
8.1.4 殘差神經網絡的凝聚現象
8.2 凝聚現象的探討
8.2.1 凝聚現象的定義
8.2.2 對於凝聚現象的理解
8.3 初始凝聚
8.4 dropout促進凝聚現象
8.4.1 什麼是dropout
8.4.2 dropout促進神經元凝聚
8.4.3 dropout及其隱式正則化的顯式表達
8.4.4 正則項對凝聚的影響
8.4.5 dropout與樣本量的關系
8.5 習題
第9章 損失景觀的嵌入原則
9.1 寬度相似性與嵌入原則
9.1.1 損失停滯點的結構相似性
9.1.2 理論框架:嵌入原則
9.1.3 嵌入原則和凝聚現象的關系
9.1.4 嵌入原則和頻率原則的關系
9.2 嵌入原則的深入分析
9.2.1 損失函數停滯現象的頻譜分析
9.2.2 臨界點嵌入後黑塞矩陣的特征值分析
9.2.3 簡化神經網絡的規模
9.3 習題
0章 樂觀估計
10.1 量化模型恢覆目標函數所需的 小樣本數量:模型秩
10.2 樂觀樣本數量和實際實驗表現的對比
10.2.1 簡單的非線性回歸模型
10.2.2 矩陣分解模型
10.2.3 神經網絡模型
10.2.4 超參數調節在非線性模型中的作用
10.3 神經網絡架構設計的分析:樂觀樣本數量是否增加
10.4 習題
1章 解的平坦性
11.1 解的平坦性的定義
11.2 批次大小對解的平坦性的影響
11.3 隨機梯度下降對解的平坦性的影響
11.3.1 隨機梯度下降噪