跟我一起學深度學習

王成、黃曉輝

  • 出版商: 清華大學
  • 出版日期: 2025-03-01
  • 售價: $1,014
  • 語言: 簡體中文
  • ISBN: 7302684146
  • ISBN-13: 9787302684145
  • 相關分類: DeepLearning
  • 下單後立即進貨 (約4週~6週)

  • 跟我一起學深度學習-preview-1
  • 跟我一起學深度學習-preview-2
  • 跟我一起學深度學習-preview-3
跟我一起學深度學習-preview-1

相關主題

商品描述

"本書以深度學習入門內容為主線,通過數形結合的方式來漸進式引導讀者進行學習,力爭使各位讀者對於每個算法原理不僅要做到知其然更要做到知其所以然。同時,本書採用了深度學習中較為流行且簡單易學的PyTorch框架來進行示例,以便讓各位讀者在學習各個算法的原理過程中也能夠掌握其實際的用法。 本書共10章,分為深度學習領域發展和開發環境配置、深度學習基礎和深度學習技術在自然語言處理領域方面的應用三部分內容。第一部分內容(第1~2章)詳細介紹了深度學習的起源和發展階段及深度學習環境的安裝配置。第二部分內容(第3~8章)介紹了深度學習入門的基礎內容,包括線性回歸、梯度下降與反向傳播、捲積神經網絡、循環神經網絡和模型的優化等方面的內容。第三部分(第9~10章)詳細介紹了自然語言處理領域的重要概念和技術發展路線,包括Seq2Seq、註意力機制、Transformer和GPT等目前主流的算法模型。 本書圖例豐富,原理與代碼講解通俗易懂,既可作為高等院校和培訓機構相關專業的教學參考書,也可作為對深度學習領域感興趣的工程師和研究人員使用。 "

目錄大綱

目錄

教學課件(PPT)

本書源碼

第1章深度學習簡介

1.1深度學習的發展階段

1.1.1早期理論的發展

1.1.2人工智能的萌芽

1.1.3反向傳播算法的發展

1.1.4捲積神經網絡的發展

1.1.5循環神經網絡的發展

1.1.6自然語言處理的發展

1.2深度學習中的關鍵人物

1.3深度學習框架介紹

1.3.1深度學習框架的出現

1.3.2深度學習框架的歷史

1.4本書的體系結構

1.4.1面向的讀者

1.4.2內容與結構

1.4.3代碼及資源

第2章環境配置

2.1體系結構介紹

2.1.1基礎軟硬件設施

2.1.2版本依賴關系

2.1.3Conda工具介紹

2.1.4安裝源介紹

2.1.5小結

2.2深度學習環境安裝

2.2.1在Windows環境下

2.2.2在Linux環境下

2.2.3實戰示例

2.2.4GPU租用

2.2.5小結

2.3開發環境安裝配置

2.3.1Jupyter Notebook安裝與使用

2.3.2PyCharm安裝與使用

2.3.3遠程連接使用

2.3.4小結

第3章深度學習基礎

3.1線性回歸

3.1.1理解線性回歸模型

3.1.2建立線性回歸模型

3.1.3求解線性回歸模型

3.1.4多項式回歸建模

3.1.5從特徵輸入到特徵提取

3.1.6從線性輸入到非線性變換

3.1.7單層神經網絡

3.1.8深度神經網絡

3.1.9小結

3.2線性回歸的簡捷實現

3.2.1PyTorch使用介紹

3.2.2房價預測實現

3.2.3梯形面積預測實現

3.2.4小結

3.3梯度下降與反向傳播

3.3.1梯度下降引例

3.3.2方向導數與梯度

3.3.3梯度下降原理

3.3.4前向傳播過程

3.3.5傳統方式梯度求解

3.3.6反向傳播過程

3.3.7梯度消失和梯度爆炸

3.3.8小結

3.4從零實現回歸模型

3.4.1網絡結構

3.4.2模型實現

3.4.3小結

3.5從邏輯回歸到Softmax回歸

3.5.1理解邏輯回歸模型

3.5.2建立邏輯回歸模型

3.5.3求解邏輯回歸模型

3.5.4從二分類到多分類

3.5.5Softmax回歸

3.5.6特徵的意義

3.5.7從具體到抽象

3.5.8從淺層到深層

3.5.9小結

3.6Softmax回歸的簡捷實現

3.6.1PyTorch使用介紹

3.6.2手寫體分類實現

3.6.3小結

3.7從零實現分類模型

3.7.1網絡結構

3.7.2模型實現

3.7.3小結

3.8回歸模型評估指標

3.8.1常見回歸評估指標

3.8.2回歸指標示例代碼

3.8.3小結

3.9分類模型評估指標

3.9.1準確率

3.9.2精確率與召回率計算

3.9.3準確率與召回率的區別

3.9.4多分類下的指標計算

3.9.5TopK準確率

3.9.6小結

3.10過擬合與正則化

3.10.1模型擬合

3.10.2過擬合與欠擬合概念

3.10.3解決欠擬合與過擬合問題

3.10.4泛化誤差的來源

3.10.5測試集導致的泛化誤差

3.10.6訓練集導致的泛化誤差

3.10.72正則化原理

3.10.82正則化中的參數更新

3.10.92正則化示例代碼

3.10.101正則化原理

3.10.111與2正則化差異

3.10.12丟棄法

3.10.13小結

3.11超參數與交叉驗證

3.11.1超參數介紹

3.11.2模型選擇

3.11.3基於交叉驗證的手寫體分類

3.11.4小結

3.12激活函數

3.12.1Sigmoid激活函數

3.12.2Tanh激活函數

3.12.3ReLU激活函數

3.12.4LeakyReLU激活函數

3.12.5小結

3.13多標簽分類

3.13.1Sigmoid損失

3.13.2交叉熵損失

3.13.3不考慮部分正確的評估指標

3.13.4考慮部分正確的評估指標

3.13.5小結

第4章捲積神經網絡

4.1捲積的概念

4.1.1深度學習的思想

4.1.2捲積操作的作用

4.1.3捲積操作的原理

4.1.4小結

4.2捲積的計算過程

4.2.1多捲積核

4.2.2捲積的計算過程

4.2.3深度捲積

4.2.4小結

4.3填充和池化

4.3.1填充操作

4.3.2形狀計算

4.3.3捲積示例代碼

4.3.4池化操作

4.3.5池化的作用

4.3.6池化示例代碼

4.3.7小結

4.4LeNet5網絡

4.4.1LeNet5動機

4.4.2LeNet5結構

4.4.3LeNet5實現

4.4.4小結

4.5AlexNet網絡

4.5.1AlexNet動機

4.5.2AlexNet結構

4.5.3AlexNet實現

4.5.4小結

4.6VGG網絡

4.6.1VGG動機

4.6.2VGG結構

4.6.3VGG實現

4.6.4小結

4.7NIN網絡

4.7.1NIN動機

4.7.2NIN結構

4.7.3NIN實現

4.7.4小結

4.8GoogLeNet網絡

4.8.1GoogLeNet動機

4.8.2GoogLeNet結構

4.8.3GoogLeNet實現

4.8.4小結

4.9ResNet網絡

4.9.1ResNet動機

4.9.2ResNet結構

4.9.3ResNet實現

4.9.4小結

4.10DenseNet網絡

4.10.1DenseNet動機

4.10.2DenseNet結構

4.10.3DenseNet實現

4.10.4小結

第5章模型訓練與復用

5.1參數及日誌管理

5.1.1參數傳遞

5.1.2參數加載

5.1.3定義日誌函數

5.1.4日誌輸出示例

5.1.5打印模型參數

5.1.6小結

5.2TensorBoard可視化

5.2.1安裝與啟動

5.2.2連接與訪問

5.2.3TensorBoard使用場景

5.2.4使用實例

5.2.5小結

5.3模型的保存與復用

5.3.1查看模型參數

5.3.2自定義參數前綴

5.3.3保存訓練模型

5.3.4復用模型推理

5.3.5復用模型訓練

5.3.6小結

5.4模型的遷移學習

5.4.1遷移學習

5.4.2模型定義與比較

5.4.3參數微調

5.4.4參數凍結

5.4.5小結

5.5開源模型復用

5.5.1ResNet結構介紹

5.5.2遷移模型構造

5.5.3結果對比

5.5.4小結

5.6多GPU訓練

5.6.1訓練方式

5.6.2數據並行

5.6.3使用示例

5.6.4小結

5.7數據預處理緩存

5.7.1修飾器介紹

5.7.2修飾器定義

5.7.3定義數據集構造類

5.7.4定義緩存修飾器

5.7.5小結

第6章模型優化方法

6.1學習率調度器

6.1.1使用示例

6.1.2實現原理

6.1.3狀態恢復

6.1.4小結

6.2梯度裁剪

6.2.1基於閾值裁剪

6.2.2基於範數裁剪

6.2.3使用示例

6.2.4小結

6.3批歸一化

6.3.1批歸一化動機

6.3.2批歸一化原理

6.3.3批歸一化實現

6.3.4小結

6.4層歸一化

6.4.1層歸一化動機

6.4.2層歸一化原理

6.4.3層歸一化實現

6.4.4小結

6.5組歸一化

6.5.1組歸一化動機

6.5.2組歸一化原理

6.5.3組歸一化實現

6.5.4小結

6.6動量法

6.6.1動量法動機

6.6.2動量法原理

6.6.3使用示例

6.6.4小結

6.7AdaGrad算法

6.7.1AdaGrad動機

6.7.2AdaGrad原理

6.7.3使用示例

6.7.4小結

6.8AdaDelta算法

6.8.1AdaDelta動機

6.8.2AdaDelta原理

6.8.3使用示例

6.8.4小結

6.9Adam算法

6.9.1Adam動機

6.9.2Adam原理

6.9.3使用示例

6.9.4小結

6.10初始化方法

6.10.1初始化動機

6.10.2初始化原理

6.10.3使用示例

6.10.4小結

第7章循環神經網絡

7.1RNN

7.1.1RNN動機

7.1.2RNN原理

7.1.3RNN計算示例

7.1.4RNN類型

7.1.5多層RNN

7.1.6RNN示例代碼

7.1.7BPTT原理

7.1.8小結

7.2時序數據

7.2.1時序圖片

7.2.2基於RNN的圖片分類

7.2.3時序文本

7.2.4基於RNN的文本分類

7.2.5小結

7.3LSTM網絡

7.3.1LSTM動機

7.3.2LSTM結構

7.3.3LSTM實現

7.3.4LSTM梯度分析

7.3.5小結

7.4GRU網絡

7.4.1GRU動機

7.4.2GRU結構

7.4.3GRU實現

7.4.4GRU與LSTM對比

7.4.5類RNN模型

7.4.6小結

7.5BiRNN網絡

7.5.1BiRNN動機

7.5.2BiRNN結構

7.5.3BiRNN實現

7.5.4小結

7.6CharRNN網絡

7.6.1任務構造原理

7.6.2數據預處理

7.6.3古詩生成任務

7.6.4小結

第8章時序與模型融合

8.1TextCNN

8.1.1TextCNN結構

8.1.2文本分詞

8.1.3TextCNN實現

8.1.4小結

8.2TextRNN

8.2.1TextRNN結構

8.2.2TextRNN實現

8.2.3小結

8.3CNNRNN

8.3.1CLSTM結構

8.3.2CLSTM實現

8.3.3BiLSTMCNN結構

8.3.4BiLSTMCNN實現

8.3.5小結

8.4ConvLSTM網絡

8.4.1ConvLSTM動機

8.4.2ConvLSTM結構

8.4.3ConvLSTM實現

8.4.4KTH數據集構建

8.4.5KTH動作識別任務

8.4.6小結

8.53DCNN

8.5.13DCNN動機

8.5.23DCNN結構

8.5.33DCNN實現

8.5.4小結

8.6STResNet

8.6.1STResNet動機

8.6.2任務背景

8.6.3STResNet結構

8.6.4數據集構建

8.6.5STResNet實現

8.6.6小結

第9章自然語言處理

9.1自然語言處理介紹

9.1.1語言模型

9.1.2基於規則的語言模型

9.1.3基於統計的語言模型

9.1.4基於神經網絡的語言模型

9.1.5小結

9.2Word2Vec詞向量

9.2.1Word2Vec動機

9.2.2Word2Vec模型

9.2.3連續詞袋模型

9.2.4跳元模型

9.2.5小結

9.3Word2Vec訓練與使用

9.3.1近似訓練

9.3.2加載預訓練詞向量

9.3.3可視化與類別計算

9.3.4詞向量訓練

9.3.5小結

9.4GloVe詞向量

9.4.1GloVe動機

9.4.2共現矩陣

9.4.3GloVe原理

9.4.4GloVe詞向量使用

9.4.5小結

9.5詞向量的微調使用

9.5.1詞嵌入層介紹

9.5.2詞嵌入層使用

9.5.3多通道TextCNN網絡

9.5.4小結

9.6fastText網絡

9.6.1fastText動機

9.6.2fastText原理

9.6.3fastText庫介紹

9.6.4詞向量的使用與訓練

9.6.5fastText文本分類

9.6.6小結

9.7Seq2Seq網絡

9.7.1Seq2Seq動機

9.7.2Seq2Seq結構

9.7.3搜索策略

9.7.4小結

9.8序列模型評價指標

9.8.1困惑度

9.8.2雙語評估輔助

9.8.3小結

9.9NMT網絡

9.9.1谷歌翻譯簡介

9.9.2統計翻譯模型弊端

9.9.3NMT數據集構建

9.9.4Seq2Seq實現

9.9.5NMT模型實現

9.9.6NMT推理實現

9.9.7NMT模型訓練

9.9.8小結

9.10註意力機制

9.10.1註意力的起源

9.10.2註意力機制思想

9.10.3註意力計算框架

9.10.4填充註意力掩碼

9.10.5Bahdanau註意力

9.10.6Luong註意力

9.10.7小結

9.11含註意力的NMT網絡

9.11.1含註意力的NMT結構

9.11.2含註意力的NMT實現

9.11.3模型訓練

9.11.4小結

9.12含註意力的RNN

9.12.1含註意力的RNN結構

9.12.2含註意力的RNN實現

9.12.3小結

第10章現代神經網絡

10.1ELMo網絡

10.1.1ELMo動機

10.1.2ELMo結構

10.1.3ELMo實現

10.1.4ELMo遷移

10.1.5小結

10.2Transformer網絡

10.2.1Transformer動機

10.2.2自註意力機制

10.2.3多頭註意力機制

10.2.4輸入編碼

10.2.5小結

10.3Transformer結構

10.3.1單層Transformer結構

10.3.2多層Transformer結構

10.3.3多頭註意力實現

10.3.4小結

10.4Transformer實現

10.4.1嵌入層實現

10.4.2編碼器實現

10.4.3解碼器實現

10.4.4Transformer網絡實現

10.4.5小結

10.5Transformer對聯模型

10.5.1數據預處理

10.5.2網絡結構

10.5.3模型訓練

10.5.4模型推理

10.5.5小結

10.6BERT網絡

10.6.1BERT動機

10.6.2BERT結構

10.6.3BERT輸入層

10.6.4預訓練任務

10.6.5小結

10.7從零實現BERT

10.7.1工程結構

10.7.2Input Embedding實現

10.7.3BERT網絡實現

10.7.4小結

10.8BERT文本分類模型

10.8.1任務構造原理

10.8.2數據預處理

10.8.3加載預訓練模型

10.8.4文本分類

10.8.5小結

10.9BERT問題選擇模型

10.9.1任務構造原理

10.9.2數據預處理

10.9.3問題選擇

10.9.4小結

10.10BERT問題回答模型

10.10.1任務構造原理

10.10.2樣本構造與結果篩選

10.10.3數據預處理

10.10.4問題回答

10.10.5小結

10.11BERT命名體識別模型

10.11.1任務構造原理

10.11.2數據預處理

10.11.3命名體識別

10.11.4小結

10.12BERT從零訓練

10.12.1構建流程與格式化

10.12.2數據預處理

10.12.3預訓練任務實現

10.12.4模型訓練與微調

10.12.5小結

10.13GPT1模型

10.13.1GPT1動機

10.13.2GPT1結構

10.13.3GPT1實現

10.13.4小結

10.14GPT2與GPT3模型

10.14.1GPT2動機

10.14.2GPT2結構

10.14.3GPT2使用

10.14.4GPT3結構

10.14.5GPT3的局限性與安全性

10.14.6小結

10.15基於GPT2的中文預訓練模型

10.15.1項目介紹

10.15.2生成結果篩選

10.15.3模型推理

10.15.4模型訓練

10.15.5小結

10.16InstructGPT與ChatGPT

10.16.1InstructGPT動機

10.16.2人類反饋強化學習

10.16.3InstructGPT原理

10.16.4InstructGPT評估及結果

10.16.5InstructGPT數據集

10.16.6InstructGPT局限性

10.16.7ChatGPT

10.16.8小結

10.17ChatGPT與提示詞工程

10.17.1提示詞工程

10.17.2提示詞的構成

10.17.3簡單提示詞

10.17.4少樣本提示詞

10.17.5情境化提示詞

10.17.6定製化

10.17.7場景應用

10.17.8ChatGPT的攻擊與防禦

10.17.9小結

10.18百川大模型使用

10.18.1模型簡介

10.18.2項目介紹

10.18.3模型結構

10.18.4模型推理

10.18.5模型微調

10.18.6小結

10.19百川大模型實現

10.19.1解碼緩存原理

10.19.2解碼層實現

10.19.3語言模型實現

10.19.4模型微調實現

10.19.5模型推理實現

10.19.6模型解碼過程

10.19.7小結

10.20GPT4與GPT的使用

10.20.1GPT4介紹

10.20.2GPT4模型的使用

10.20.3GPT介紹

10.20.4小結

參考文獻