語音識別:原理與應用

洪青陽,李琳

買這商品的人也買了...

商品描述

本書系統地介紹了語音識別的原理和應用,全書共分15章,原理部分涵蓋聲學特徵、
隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經網絡(DNN)、
語言模型和加權有限狀態轉換器(WFST),重點描述了GMM-HMM、DNN-HMM和端到端(E2E)三種語音識別框架。
本書應用部分包含Kaldi、Espnet、工業應用實踐介紹,內容主要來自工程經驗,極具實用性。
本書可以作為普通高等學校人工智能、計算機科學與技術、電子信息工程、
自動化等專業的本科生及研究生教材,也適合作為從事智能語音系統的科研和工程技術人員的參考用書。

作者簡介

李琳

廈門大學副教授,主要研究方向為語音信號處理、聲紋識別、智能係統設計,
負責國家重點研發項目子課題一項、省級科研項目一項,作為第一合作者參與國家自然基金兩項,
參與指導×muspeech團隊連續兩屆獲東方語種識別競賽第一名。
國際IEEE學會會員,NCMMSC常設機構委員會委員,CCF語音對話與聽覺專業組委員。

目錄大綱

目錄
第1章語音識別概論
1.1語音的產生和感知
1.2語音識別過程
1.3語音識別發展歷史
1.4國內語音識別現狀
1.5語音識別建模方法
1.5.1 DTW
1.5.2 GMM-HMM
1.5.3 DNN-HMM
1.5. 4端到端
1.6語音識別開源工具
1.7語音識別常用數據庫
1.8語音識別評價指標

第2章語音信號基礎
2.1聲波的特性
2.2聲音的接收裝置
2.2.1麥克風陣列
2.3聲音的採樣
2.4聲音的量化
2.5語音的編碼
2.6 WAV文件格式
2.7 WAV文件分析

第3章語音特徵提取
3.1預處理
3.2短時傅立葉變換
3.3聽覺特性
3.4線性預測
3.5倒譜分析
3.6常用的聲學特徵
3.6.1語譜圖
3.6.2 FBank
3.6.3 MFCC
3.6.4 PLP
3.6.5 CQCC

第4章HMM
4.1 HMM的基本概念
4.1.1馬爾可夫鏈
4.1.2雙重隨機過程
4.1.3 HMM的定義
4.2 HMM的三個基本問題
4.2.1模型評估問題
4.2.2最佳路徑問題
4.2.3模型訓練問題

第5章GMM-HMM
5.1概率統計
5.2高斯分佈
5.3 GMM
5.3.1初始化
5.3.2重估計
5.4 GMM-HMM
5.5 GMM-HMM的訓練
5.6模型自適應
5.6.1 MAP
5.6.2 MLLR
5.6.3 fMLLR
5.6.4 SAT
課程實踐:基於HTK搭建GMM-HMM系統

第6章基於HMM的語音識別
6.1建模單元
6.2發音過程與HMM狀態
6.3串接HMM
6.4固定語法的識別
6.5隨機語法的識別

第7章音素的上下文建模
7.1協同發音
7.2上下文建模
7.3決策樹
7.4問題集
7.4.1手工設計
7.4.2自動生成
7.5三音子模型的訓練

第8章語言模型
8.1 n-gram模型
8.2評價指標——困惑度
8.3平滑技術
8.3.1 Good-Turing折扣法
8.3.2 Jelinek-Mercer插值法
8.3.3 Kneser-Ney插值法
8.3.4 Katz回退法
8.4語言模型的訓練
8.5遞歸神經網絡語言模型

第9章WFST解碼器
9.1基於動態網絡的Viterbi解碼
9.2 WFST理論
9.3 HCLG構建
9.3.1 H的構建
9.3.2 C的構建
9.3.3 L的構建
9.3.4 G的構建
9.3.5 HCLG合併
9.4 WFST的Viterbi解碼
9.4.1 Token的定義
9.4.2 Viterbi算法
9.5 Lattice解碼
9.5.1主要數據結構
9.5.2令牌傳播過程
9.5.3剪枝策略
9.5 .4 Lattice

第10章DNN-HMM
10.1深度學習
10.2 DNN
10.2.1激活函數
10.2.2損失函數
10.2.3梯度下降算法
10.3 DNN與HMM的結合
10.4不同的DNN結構
10.4.1 CNN
10.4.2 LSTM
10.4 .3 GRU
10.4.4 TDNN
10.4.5 TDNN

第11章序列區分性訓練
11.1區分性準則
11.1.1 MMI
11.1.2 BMMI
11.1.3 MPE/sMBR
11.2 MMI求導過程
11.3 Lattice-based MMI
11.4 Lattice-free MMI
11.5 Kaldi Chain模型

第12章端到端語音識別
12.1 CTC
12.1.1損失函數
12.1.2前向算法
12.1.3後向算法
12.1.4求導過程
12.1.5 CTC解碼
12.2 RNN
12.3 Attention模型
12.4 Hybrid CTC/Attention
12.5 Transformer

第13章Kaldi實踐
13.1下載與安裝Kaldi
13.1.1獲取源代碼
13.1.2編譯
13.2創建與配置基本的工程目錄
13.3 aishell語音識別工程
13.3.1數據映射目錄準備
13.3.2詞典準備和lang目錄生成
13.3.3語言模型訓練
13.3.4聲學特徵提取與倒譜均值歸一化
13.3.5聲學模型訓練與強制對齊
13.3.6解碼測試與指標計算

第14章Espnet實踐
14.1數據準備
14.1.1映射文件準備
14.1.2特徵提取
14.1.3數據增強
14.1.4詞典生成
14.1.5數據打包
14.2 Espnet配置文件
14.3語言模型訓練
14.4聲學模型訓練
14.4.1聲學模型訓練腳本
14.4.2 CTC聲學模型訓練
14.4.3 Attention聲學模型訓練
14.4.4 RNN-T模型訓練
14.4.5 Transformer模型訓練
14.5語音識別解碼
14.6 Espnet訓練解碼可視化
14.6. 1 Espnet訓練參數可視化
14.6.2 Espnet中的Attention可視化
14.6.3 Espnet解碼結果可視化

第15章工業應用實踐
15.1動態庫封裝
15.1.1函數接口
15.1.2動態庫編譯
15.1.3動態庫調用
15.2語音雲平台
15.3識別引擎優化
15.3.1加快響應速度
15.3.2定制語言模型
15.3.3定制聲學模型
15.4嵌入式移植