PyTorch 語音識別實戰

王曉華

預覽內頁

出版商: 清華大學
出版日期: 2024-03-01
售價: $414
貴賓價: 9.5 折 $393
語言: 簡體中文
頁數: 264
裝訂: 平裝
ISBN: 7302655650
ISBN-13: 9787302655657
相關分類: 語音辨識 Speech-recognition

立即出貨 (庫存=1)

買這商品的人也買了...

~~$1,200~~ $948

深度學習 (Deep Learning)(繁體中文版)
~~$520~~ $406

特徵工程不再難：資料科學新手也能輕鬆搞定！ (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)
$301

圖解語音識別
$301

Python 自然語言處理實戰 (Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications)
~~$880~~ $695

跟著 Docker 隊長，修練 22天就精通 - 搭配 20小時作者線上教學，無縫接軌 Microservices、Cloud-native、Serverless、DevOps 開發架構
$280

MicroPython 開發與實戰
~~$479~~ $455

GPU 編程實戰 : 基於 Python 和 CUDA (Hands-On GPU Programming with Python and CUDA: Boost your application's performance and productivity with CUDA: Explore high-performance parallel computing with CUDA)
~~$880~~ $695

Hey Siri 及 Ok Google原理 - AI語音辨識專案真應用開發
~~$680~~ $537

一本精通 - OpenCV 與 AI 影像辨識
$352

PyTorch 2.0 深度學習從零開始學
$473

YOLO 目標檢測
~~$588~~ $559

Stable Diffusion AI 繪畫教學：文生圖+圖生圖+提示字+模型訓練+外掛程式應用
~~$594~~ $564

語音辨識：模式、演算法設計與實踐
$505

圖計算與推薦系統
$422

LangChain 實戰：從原型到生產，動手打造 LLM 應用
$564

大語言模型：原理與工程實踐
~~$980~~ $774

新範式來臨 - 用 PyTorch 了解 LLM 開發微調 ChatGLM 全過程
~~$560~~ $442

AI 神助攻！程式設計新境界 – GitHub Copilot 開發 Python 如虎添翼 : 提示工程、問題分解、測試案例、除錯
$360

LangChain 簡明講義：從0到1建構 LLM 應用程式
~~$750~~ $593

新一代 Keras 3.x 重磅回歸：跨 TensorFlow 與 PyTorch 建構 Transformer、CNN、RNN、LSTM 深度學習模型
~~$780~~ $616

圖像生成式 AI 的生存指南 -- 以 Stable Diffusion 為例
~~$774~~ $735

AIGC 原理與實務：零基礎學大語言模型、擴散模型與多模態模型
~~$650~~ $507

LLM 大型語言模型的絕世祕笈：27路獨步劍法，帶你闖蕩生成式 AI 的五湖四海（iThome鐵人賽系列書）
~~$680~~ $530

LangChain 奇幻旅程：OpenAI x Gemini x 多模態應用開發指南
~~$594~~ $564

Stable Diffusion AI 繪畫全面貫通：生成參數 + 提示詞庫 + 模型訓練 + 插件擴展

商品描述

《PyTorch語音識別實戰》使用PyTorch 2.0作為語音識別的基本框架，循序漸進地引導讀者從搭建環境開始，逐步深入到語音識別基本理論、算法以及應用實踐，是較好的一本語音識別技術圖書。本書配套示例源碼、數據集、PPT課件等資源。《PyTorch語音識別實戰》分為13章，內容包括語音識別之路、PyTorch 2.0深度學習環境搭建、音頻信號處理的理論與Python實戰、音頻處理常用工具包Librosa詳解與實戰、基於DNN的語音情緒分類識別、一學就會的深度學習基礎算法、基於PyTorch捲積層的語音情緒分類識別、詞映射與循環神經網絡、基於Whisper的語音轉換實戰、註意力機制與註意力模型詳解、鳥叫的多標簽分類實戰、多模態語音轉換模型基礎、GLM架構多模態語音文字轉換實戰。《PyTorch語音識別實戰》內容詳盡、示例豐富，適合作為語音識別初學者、深度學習初學者、語音識別技術人員的必備參考書，同時也非常適合作為高等院校或高職高專深度學習、語音識別等課程的教材。

作者簡介

王曉華，高校計算機專業講師，研究方向為雲計算、大數據與人工智能。其創作的部分圖書：《從零開始大模型開發與微調：基於PyTorch與ChatGLM》《PyTorch 2.0深度學習從零開始學》《Python機器學習與可視化分析實戰》《谷歌JAX深度學習從零開始學》《Spark 3.0大數據分析與挖掘：基於機器學習》《TensorFlow深度學習應用實踐》《TensorFlow語音識別實戰》《TensorFlow 2.0深度學習從零開始學》《深度學習的數學原理與實現》

目錄大綱

第1章語音識別之路 1

1.1 何謂語音識別 1

1.2 語音識別為什麼那麼難 2

1.3 語音識別之路—語音識別的發展歷程 3

1.3.1 高斯混合-隱馬爾科夫時代 4

1.3.2 深度神經網絡-隱馬爾科夫時代 5

1.3.3 基於深度學習的端到端語音識別時代 6

1.3.4 多模態架構的語音識別與轉換 7

1.4 基於深度學習的語音識別的未來 8

1.5 本章小結 8

第2章 PyTorch 2.0深度學習環境搭建 9

2.1 環境搭建1：安裝Python 9

2.1.1 Miniconda的下載與安裝 9

2.1.2 PyCharm的下載與安裝 12

2.1.3 Python代碼小練習：計算softmax函數 15

2.2 環境搭建2：安裝PyTorch 2.0 16

2.2.1 Nvidia 10/20/30/40系列顯卡選擇的GPU版本 16

2.2.2 PyTorch 2.0 GPU Nvidia運行庫的安裝 16

2.2.3 PyTorch 2.0小練習：Hello PyTorch 19

2.3 實戰：基於特徵詞的語音喚醒 20

2.3.1 數據的準備 20

2.3.2 數據的處理 21

2.3.3 模型的設計 24

2.3.4 模型的數據輸入方法 24

2.3.5 模型的訓練 25

2.3.6 模型的結果和展示 26

2.4 本章小結 27

第3章音頻信號處理的理論與Python實戰 28

3.1 音頻信號的基本理論詳解 28

3.1.1 音頻信號的基本理論 28

3.1.2 音頻信號的時域與頻域 29

3.2 傅裏葉變換詳解 30

3.2.1 傅裏葉級數 31

3.2.2 連續到離散的計算 33

3.2.3 Python中的傅裏葉變換實戰 34

3.3 快速傅裏葉變換與短時傅裏葉變換 38

3.3.1 快速傅裏葉變換Python實戰 39

3.3.2 短時傅裏葉變換Python實戰 42

3.4 梅爾頻率倒譜系數Python實戰 44

3.4.1 梅爾頻率倒譜系數的計算過程 44

3.4.2 梅爾頻率倒譜系數的Python實現 45

3.5 本章小結 52

第4章音頻處理工具包Librosa詳解與實戰 53

4.1 音頻特徵提取Librosa包基礎使用 53

4.1.1 基於Librosa的音頻信號讀取 53

4.1.2 基於Librosa的音頻多種特徵提取 56

4.1.3 其他基於Librosa的音頻特徵提取工具 58

4.2 基於音頻特徵的聲音聚類實戰 59

4.2.1 數據集的準備 59

4.2.2 按標簽類別整合數據集 62

4.2.3 音頻特徵提取函數 63

4.2.4 音頻特徵提取之數據降維 64

4.2.5 音頻特徵提取實戰 65

4.3 本章小結 69

第5章基於深度神經網絡的語音情緒分類識別 70

5.1 深度神經網絡與多層感知機詳解 70

5.1.1 深度神經網絡與多層感知機 70

5.1.2 基於PyTorch 2.0的深度神經網絡建模示例 71

5.1.3 交叉熵損失函數詳解 73

5.2 實戰：基於深度神經網絡的語音情緒識別 74

5.2.1 情緒數據的獲取與標簽的說明 75

5.2.2 情緒數據集的讀取 76

5.2.3 基於深度神經網絡示例的模型設計和訓練 78

5.3 本章小結 79

第6章一學就會的深度學習基礎算法 80

6.1 反向傳播神經網絡前身歷史 80

6.2 反向傳播神經網絡基礎算法詳解 84

6.2.1 最小二乘法詳解 84

6.2.2 梯度下降算法（道士下山的故事） 86

6.2.3 最小二乘法的梯度下降算法及其Python實現 89

6.3 反饋神經網絡反向傳播算法介紹 95

6.3.1 深度學習基礎 95

6.3.2 鏈式求導法則 96

6.3.3 反饋神經網絡原理與公式推導 97

6.3.4 反饋神經網絡原理的激活函數 103

6.4 本章小結 104

第7章基於PyTorch捲積層的語音情緒分類識別 105

7.1 捲積運算的基本概念 105

7.1.1 基本捲積運算示例 106

7.1.2 PyTorch中的捲積函數實現詳解 107

7.1.3 池化運算 109

7.1.4 softmax激活函數 111

7.1.5 捲積神經網絡的原理 112

7.2 基於捲積神經網絡的語音情緒分類識別 114

7.2.1 串聯到並聯的改變—數據的準備 114

7.2.2 基於捲積的模型設計 116

7.2.3 模型訓練 117

7.3 PyTorch的深度可分離膨脹捲積詳解 118

7.3.1 深度可分離捲積的定義 119

7.3.2 深度的定義以及不同計算層待訓練參數的比較 121

7.3.3 膨脹捲積詳解 121

7.4 本章小結 122

第8章詞映射與循環神經網絡 123

8.1 有趣的詞映射 123

8.1.1 什麼是詞映射 124

8.1.2 PyTorch中的詞映射處理函數詳解 125

8.2 實戰：循環神經網絡與文本內容情感分類 126

8.2.1 基於循環神經網絡的中文情感分類準備工作 126

8.2.2 基於循環神經網絡的中文情感分類 128

8.3 循環神經網絡理論講解 131

8.3.1 什麼是GRU 131

8.3.2 單向不行，那就雙向 133

8.4 本章小結 134

第9章基於Whisper的語音轉換實戰 135

9.1 實戰：Whisper語音轉換 135

9.1.1 Whisper使用環境變量配置與模型介紹 135

9.1.2 Whisper模型的使用 137

9.1.3 一學就會的語音轉換Web前端 138

9.2 Whisper模型詳解 141

9.2.1 Whisper模型總體介紹 141

9.2.2 更多基於Whisper的應用 143

9.3 本章小結 144

第10章註意力機制 146

10.1 註意力機制與模型詳解 146

10.1.1 註意力機制詳解 147

10.1.2 自註意力機制 148

10.1.3 ticks和Layer Normalization 153

10.1.4 多頭自註意力 154

10.2 註意力機制的應用實踐：編碼器 157

10.2.1 編碼器的總體架構 157

10.2.2 回到輸入層：初始詞向量層和位置編碼器層 158

10.2.3 前饋層的實現 161

10.2.4 多層模塊融合的TransformerBlock層 162

10.2.5 編碼器的實現 164

10.3 實戰編碼器：拼音漢字轉換模型 169

10.3.1 漢字拼音數據集處理 169

10.3.2 漢字拼音轉換模型的確定 171

10.3.3 模型訓練代碼的編寫 172

10.4 本章小結 174

第11章鳥叫的多標簽分類實戰 175

11.1 基於語音識別的多標簽分類背景知識詳解 175

11.1.1 多標簽分類不等於多分類 176

11.1.2 多標簽損失函數Sigmoid + BCELoss 176

11.2 實戰：鳥叫的多標簽分類 178

11.2.1 鳥叫聲數據集的獲取 178

11.2.2 鳥叫聲數據處理與可視化 179

11.2.3 鳥叫聲數據的批量化數據集建立 182

11.2.4 鳥叫分辨深度學習模型的搭建 185

11.2.5 多標簽鳥叫分類模型的訓練與預測 188

11.3 為了更高的準確率：多標簽分類模型的補充內容 190

11.3.1 使用不同的損失函數提高準確率 190

11.3.2 使用多模型集成的方式完成鳥叫語音識別 192

11.4 本章小結 194

第12章多模態語音轉換模型基礎 195

12.1 語音文字轉換的研究歷程與深度學習 195

12.1.1 語音文字轉換的傳統方法 195

12.1.2 語音文字轉換基於深度學習的方法 197

12.1.3 早期深度學習語音文字轉換模型介紹 198

12.2 基於GLM架構的多模態語音文本轉換模型 202

12.2.1 最強的人工智能模型ChatGLM介紹 202

12.2.2 更加準確、高效和泛化性的多模態語音轉換架構—GLM與GPT2 203

12.3 從零開始的GPT2模型訓練與數據輸入輸出詳解 205

12.3.1 開啟低硬件資源GPT2模型的訓練 205

12.3.2 GPT2的輸入輸出結構—自回歸性（auto-regression） 206

12.3.3 GPT2模型的輸入格式的實現 208

12.3.4 經典GPT2模型的輸出格式詳解與代碼實現 210

12.4 一看就能學會的GPT2模型源碼詳解 212

12.4.1 GPT2模型中的主類 212

12.4.2 GPT2模型中的Block類 219

12.4.3 GPT2模型中的Attention類 224

12.4.4 GPT2模型中的MLP類 231

12.5 具有多樣性生成的GPT2生成函數 232

12.5.1 創造性函數的使用與代碼詳解 233

12.5.2 創造性參數temperature與採樣個數TopK簡介 234

12.6 本章小結 236

第13章 GLM架構多模態語音文字轉換實戰 237

13.1 GLM架構詳解 237

13.1.1 GLM模型架構重大突破：旋轉位置編碼 238

13.1.2 添加旋轉位置編碼的註意力機制 239

13.1.3 新型的激活函數GLU詳解 240

13.1.4 調整架構順序的GLMBlock 240

13.1.5 自定義完整的GLM模型（單文本生成版） 243

13.2 實戰：基於GLM的文本生成 247

13.2.1 數據集的準備 247

13.2.2 模型的訓練 250

13.2.3 模型的推斷 252

13.3 實戰：基於GLM的語音文本轉換 253

13.3.1 數據集的準備與特徵抽取 253

13.3.2 語音特徵融合的方法 255

13.3.3 基於多模態語音融合的多模態模型設計 256

13.3.4 模型的訓練 261

13.3.5 模型的推斷 262

13.3.6 多模態模型準確率提高的方法 263

13.4 本章小結 264

PyTorch 語音識別實戰

王曉華

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (20)