語音識別:原理與應用, 3/e

洪青陽,李琳

  • 出版商: 電子工業
  • 出版日期: 2025-04-01
  • 售價: $714
  • 貴賓價: 9.5$678
  • 語言: 簡體中文
  • 頁數: 296
  • ISBN: 7121499320
  • ISBN-13: 9787121499326
  • 立即出貨

買這商品的人也買了...

相關主題

商品描述

本書系統地介紹了語音識別在大模型時代的新技術與新應用。全書共16章,原理部分涵蓋聲學特徵、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經網絡(DNN)、語言模型和加權有限狀態轉換器(WFST)、語音大模型,重點描述了GMM-HMM、DNN-HMM和端到端(E2E)三種語音識別框架;應用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工業應用實踐介紹,內容主要來自工程經驗,極具實用性。

作者簡介

洪青陽,廈門大學副教授,天聰智能創始人,主要研究方向是語音識別、聲紋識別,先後主持國家自然基金兩項,科技部創新基金兩項。牽頭組建廈門大學智能語音實驗室,帶領xmuspeech團隊連續兩屆獲東方語種識別(OLR)競賽第一名,成功研發國內第一套閩南語合成系統。具有豐富的工業界研發經驗,與華為、雲從、掌數科技等知名企業合作,承擔過大量的智能語音項目,核心技術應用到華為智能手機和全國十五個省市的司法/社保/證券/電力系統。長期從事本科生、研究生的語音識別教學工作,從動態時間規整(DTW)、隱馬爾可夫模型(HMM)到E2E語音識別框架,與時俱進更新教學內容,積累了豐富的教學經驗。

目錄大綱

第1章 語音識別概論
1.1 語音的產生和感知
1.2 語音識別過程
1.3 語音識別發展歷史
1.4 國內語音識別現狀
1.5 語音識別建模方法
1.5.1 DTW
1.5.2 GMM-HMM
1.5.3 DNN-HMM
1.5.4 E2E模型
1.6 語音識別開源工具
1.7 常用語音識別數據庫
1.8 語音識別評價指標
參考文獻
第2章 語音信號基礎
2.1 聲波的特性
2.2 聲音的接收裝置
2.2.1 麥克風的性能指標
2.2.2 麥克風陣列
2.3 聲音的采樣
2.4 聲音的量化
2.5 語音的編碼
2.6 WAV文件格式
2.7 WAV文件分析
2.8 本章小結
思考練習題
第3章 語音特征提取
3.1 預處理
3.2 短時傅裏葉變換
3.3 聽覺特性
3.4 線性預測
3.5 倒譜分析
3.6 常用的聲學特征
3.6.1 語譜圖
3.6.2 FBank
3.6.3 MFCC
3.6.4 PLP
3.7 本章小結
思考練習題
第4章 HMM
4.1 HMM的基本概念
4.1.1 馬爾可夫鏈
4.1.2 雙重隨機過程
4.1.3 HMM的定義
4.2 HMM的三個基本問題
4.2.1 模型評估問題
4.2.2 最佳路徑問題
4.2.3 模型訓練問題
4.3 本章小結
參考文獻
思考練習題
第5章 GMM-HMM
5.1 概率統計
5.2 高斯分布
5.3 GMM
5.3.1 初始化
5.3.2 重估計
5.4 GMM與HMM的結合
5.5 GMM-HMM的訓練
5.6 模型自適應
5.6.1 MAP
5.6.2 MLLR
5.6.3 fMLLR
5.6.4 SAT
5.7 本章小結
參考文獻
思考練習題
第6章 基於HMM的語音識別
6.1 建模單元
6.2 發音過程與HMM狀態
6.3 串接HMM
6.4 固定語法的識別
6.5 隨機語法的識別
6.6 音素的上下文建模
6.6.1 協同發音
6.6.2 上下文建模
6.6.3 決策樹
6.6.4 問題集
6.6.5 三音子模型的訓練
6.7 本章小結
思考練習題
第7章 DNN-HMM
7.1 深度學習
7.2 DNN
7.2.1 激活函數
7.2.2 損失函數
7.2.3 梯度下降算法
7.3 DNN與HMM的結合
7.4 不同的DNN結構
7.4.1 CNN
7.4.2 LSTM
7.4.3 GRU
7.4.4 TDNN
7.4.5 TDNN
7.5 本章小結
參考文獻
思考練習題
第8章 語言模型
8.1 n-gram模型
8.2 評價指標——困惑度
8.3 平滑技術
8.3.1 Good-Turing折扣法
8.3.2 Witten-Bell折扣法
8.3.3 Katz 回退法
8.3.4 Jelinek-Mercer插值法
8.3.5 Kneser-Ney插值法
8.4 語言模型的訓練
8.5 神經網絡語言模型
8.6 本章小結
參考文獻
思考練習題
第9章 WFST解碼器
9.1 基於動態網絡的Viterbi解碼
9.2 WFST理論
9.3 HCLG構建
9.3.1 H的構建
9.3.2 C的構建
9.3.3 L的構建
9.3.4 G的構建
9.3.5 HCLG合並
9.4 WFST的Viterbi解碼
9.4.1 Token的定義
9.4.2 Viterbi算法
9.5 Lattice 解碼
9.5.1 主要數據結構
9.5.2 令牌傳播過程
9.5.3 剪枝策略
9.5.4 Lattice
9.6 本章小結
參考文獻
思考練習題
第10章 Kaldi訓練實例
10.1 下載與安裝Kaldi
10.1.1 獲取源代碼
10.1.2 編譯
10.2 創建和配置基本的工程目錄
10.3 aishell語音識別工程
10.3.1 數據集映射目錄準備
10.3.2 詞典準備和lang目錄生成
10.3.3 語言模型訓練
10.3.4 聲學特征提取與倒譜均值歸一化
10.3.5 聲學模型訓練與強制對齊
10.3.6 解碼測試與指標計算
10.4 本章小結
第11章 端到端語音識別
11.1 CTC
11.1.1 損失函數
11.1.2 前向算法
11.1.3 後向算法
11.1.4 求導過程
11.1.5 CTC 解碼
11.2 RNN
11.3 基於Attention 的Encoder-Decoder模型
11.4 Hybrid CTC/Attention
11.5 本章小結
參考文獻
思考練習題
第12章 Transformer結構
12.1 模型結構
12.2 卷積下采樣
12.3 位置編碼
12.4 自註意力機制
12.4.1 自註意力
12.4.2 多頭註意力機制
12.5 編碼器結構
12.5.1 殘差連接
12.5.2 層歸一化
12.5.3 前饋層
12.6 解碼器結構
12.6.1 交叉註意力
12.6.2 掩蔽註意力
12.7 訓練和推理
12.8 Whisper 實例
12.9 本章小結
參考文獻
思考練習題
第13章 Conformer流識別
13.1 Conformer結構
13.2 卷積下采樣
13.3 編碼器結構
13.3.1 前饋模塊
13.3.2 多頭自註意力模塊
13.3.3 卷積模塊
13.4 相對位置編碼
13.5 流識別機制
13.6 本章小結
參考文獻
思考練習題
第14章 語音大模型
14.1 LLM
14.2 音頻離散化
14.3 語音文本對齊
14.4 流式打斷
14.5 對話大模型
14.6 本章