語音識別基本法:Kaldi 實踐與探索

湯志遠 等

買這商品的人也買了...

商品描述

語音是新一代人機交互的方式,語音識別是實現這一方式的關鍵環節,也是實現人工智能的基本步驟之一。本書結合當下使用廣泛的Kaldi工具,對語音識別的基本概念和流程進行了詳細的講解,包括GMM-HMM、DNN-HMM、端到端等常用結構,並探討了語音識別在實際應用中的問題,包括說話人自適應、噪聲對抗與環境魯棒性、小語種語音識別、關鍵詞識別與嵌入式應用等方面,也對語音技術的相關前沿課題進行了介紹,包括說話人識別、語種識別、情緒識別、語音合成等方向。本書的寫作以讓讀者快速、直觀地理解概念為目標,只展示最基本的數學公式,同時本書註重理解與實踐相結合,在對語音技術各個概念的講解中都展示了相應的Kaldi語音處理命令,以便讓讀者進一步融會貫通。本書適用於語音識別及相關技術的初學者、在校學生,以及基於Kaldi進行產品研發的同仁,也可以作為語音從業者的參考書目。

作者簡介

湯志遠,中國科學院大學與清華大學聯合培養博士,清華博士後。
專注於語音技術,研究領域涉及語音識別、聲紋識別、語種識別、口語測評等,在國際重要期刊或會議上累計發表論文數十篇。
個人主頁:http://tangzy.cslt.org。


李藍天,清華大學博士、博士後,專注於機器學習在語音信號處理中的方法研究,研究領域涉及說話人識別、語音識別、音頻事件檢測、語種識別、情感識別等,現已在國際期刊或會議上發表學術論文50餘篇。
個人主頁:http://lilt.cslt.org。


王東,清華大學副研究員,清華大學語音和語言技術中心副主任,英國愛丁堡大學博士,歷任Oracle中國軟件工程師、IBM中國高級軟件工程師、英國愛丁堡大學Marie Curie研究員、法國EURECOM博士後研究員、美國Nuance公司高級研究科學家,在語音領域國際重要期刊或會議上發表論文150餘篇,是IEEE高級會員,APSIPA(亞太信號與信息處理協會)SLA(服務等級協議)主席。
個人主頁:http://wangd.cslt.org。


石穎,哈爾濱工業大學在讀博士,曾任清華大學語音和語言技術中心語音算法工程師,專注於語音相關技術,研究領域涉及語音識別、小語種語音識別、命令詞識別、語音增強。
個人主頁:http://shiying.cslt.org。


蔡雲麒,中國科學院物理研究所與美國橡樹嶺國家實驗室聯合培養博士研究生,清華大學博士後,目前研究方向為語音領域的機器學習算法研究。
在國際期刊和會議上發表論文十多篇。


鄭方,清華大學研究員、博士生導師,清華大學語音和語言技術中心主任,清華大學人工智能研究院聽覺智能研究中心主任,北京信息科學與技術國家研究中心智能科學部常務副主任,得意音通公司創始人。
個人主頁:http://cslt.riit.tsinghua.edu.cn/~fzheng。

目錄大綱

1語音是什麼2 
1.1大音希聲2 
1.2產生語音4 
1.3看見語音5 
1.4小結8 

2語音識別方法9 
2.1總體思路10 
2.2聲學模型GMM-HMM 12 
2.2.1 HMM 12 
2.2.2 GMM 14 
2.2. 3訓練15 
2.3聲學模型DNN-HMM 16 
2.4語言模型18 
2.4.1 N-Gram 18 
2.4.2 RNN語言模型18 
2.5解碼器20 
2.6端到端結構22 
2.6.1 CTC 23 
2.6.2 RNN-T 26 
2.6.3 Attention 27 
2.6.4 Self-Attention 29 
2.6.5 CTC+Attension 31 
2.7開源工具和硬件平台32 
2.7.1深度學習平台32 
2.7.2語音識別工具33 
2.7.3硬件加速34 
2.8小結36 

3完整的語音識別實驗37 
3.1語音識別實驗的步驟38 
3.2語音識別實驗的運行46 
3.3其他語音任務案例47 
3.4小結47 

4前端處理48 
4.1數據準備48 
4.2聲學特徵提取52 
4.2.1預加重(Pre-Emphasis) 54 
4.2.2加窗(Windowing) 54 
4.2.3離散傅里葉變換(DFT) 55 
4.2. 4 FBank特徵56 
4.2.5 MFCC特徵57 
4.3小結58 

5訓練與解碼59 
5.1 GMM-HMM基本流程60 
5.1.1訓練60 
5.1.2解碼61 
5.1.3強制對齊62 
5.2 DNN-HMM基本流程63 
5.3 DNN配置詳解64 
5.3.1 component和component-de 65 
5.3.2屬性與描述符66 
5.3.3不同組件的使用方法66 
5.3.4 LSTM配置範例76 
5.4小結81 

6說話人自適應84 
6.1什麼是說話人自適應84 
6.2特徵域自適應與聲道長度規整85 
6.3聲學模型自適應:HMM-GMM系統87 
6.3.1基於MAP的自適應方法88 
6.3.2基於MLLR的自適應方法91 
6.4聲學模型自適應:DNN系統93 
6.4.1模型參數自適應學習93 
6.4.2基於說話人向量的條件學習94 
6.5領域自適應95 
6.6小結95 

7噪聲對抗與環境魯棒性97 
7.1環境魯棒性簡介97 
7.2前端信號處理方法98 
7.2.1語音增強方法99 
7.2.2特徵域補償方法103 
7.2.3基於DNN的特徵映106 
7.3後端模型增強方法108 
7.3.1簡單模型增強方法108 
7.3. 2模型自適應方法109 
7.3.3多場景學習和數據增強方法109 
7.4小結110 

8小語種語音識別111 
8.1小語種語音識別面臨的主要困難112 
8.2基於音素共享的小語種語音識別113 
8.3基於參數共享的小語種語音識別方法118 
8.4其他小語種語音識別方法121 
8.4.1 Grapheme建模121 
8.4.2網絡結構與訓練方法121 
8.4.3數據增強122 
8.5小語種語音識別實踐122 
8.5.1音頻數據採集122 
8.5.2文本數據採集122 
8.5.3文本正規化123 
8.5.4發音詞典設計123 
8.6小結123 

9關鍵詞識別與嵌入式應用125 
9.1基本概念125 
9.2評價指標126 
9.3實現方法129 
9.3.1總體框架129 
9.3.2基於LVCSR的KWS系統130 
9.3.3基於示例的KWS 132 
9.3.4端到端KWS 133 
9.3.5滑動窗口133 
9.4嵌入式應用134 
9.4.1模型壓縮134 
9.4.2遷移學習136 
9.4.3網絡結構搜索與設計137 
9.5小結137 

10說話人識別140 
10.1什麼是說話人識別140 
10.1.1基本概念140 
10.1.2技術難點143 
10.1.3發展歷史143 
10.2基於知識驅動的特徵設計144 
10.3基於線性高斯的統計模型147 
10.3.1高斯混合模型-通用背景模型147 
10.3.2因子分析150 
10.4基於數據驅動的特徵學習154 
10.4.1模型結構156 
10.4.2訓練策略157 
10.4.3多任務學習157 
10.5基於端到端的識別模型158 
10.6小結160 

11語種識別161 
11.1什麼是語種識別161 
11.2語言的區分性特徵163 
11.3統計模型方法165 
11.3.1基於聲學特徵的識別方法165 
11.3.2基於發音單元的語種識別方法167 
11.4深度學習方法170 
11.4.1基於DNN的統計模型方法170 
11.4.2基於DNN的端到端建模172 
11.4.3基於DNN的語言嵌入176 
11.5 Kaldi中的語種識別178 
11.6小結180 

12語音情緒識別182 
12.1什麼是語音情緒識別182 
12.2語音情緒模型185 
12.2.1離散情緒模型186 
12.2.2連續情緒模型186 
12.3語音情緒特徵提取187 
12.3.1語音情緒識別中的典型特徵187 
12.3.2局部特徵與全局特徵190 
12.4語音情緒建模192 
12.4.1離散情緒模型192 
12.4.2連續情緒模型195 
12.5深度學習方法196 
12.5.1基礎DNN方法196 
12.5.2特徵學習198 
12.5.3遷移學習200 
12.5.4多任務學習200 
12.6小結201 

13語音合成203 
13.1激勵-響應模型204 
13.2參數合成207 
13.3拼接合成208 
13.4統計模型合成210 
13.5神經模型合成212 
13.6基於注意力機制的合成系統214 
13.7小結216 
參考文獻217 
索引243