語音識別基本法：Kaldi 實踐與探索

湯誌遠等

出版商: 電子工業
出版日期: 2021-02-01
定價: $534
售價: 8.5 折 $453
語言: 簡體中文
頁數: 256
裝訂: 平裝
ISBN: 7121404788
ISBN-13: 9787121404788
相關分類: 語音辨識 Speech-recognition

立即出貨(限量) (庫存=1)

買這商品的人也買了...

~~$580~~ $493

程式設計師的自我修養－連結、載入、程式庫
~~$580~~ $493

深入理解 Linux 程式設計：從應用到核心
~~$450~~ $270

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
$453

KVM 實戰：原理、進階與性能調優
~~$534~~ $507

語音信號處理, 3/e
~~$680~~ $537

最專業的語音辨識全書：使用深度學習實作
$594

實時語音處理實踐指南
$421

Kaldi 語音識別實戰
$300

圖解語音識別
$358

語音信號處理 (C++版)
$384

語音識別：原理與應用
~~$880~~ $616

AI 語音辨識：用 Kaldi 實作應用全集
$594

C++ 新經典：Linux C++ 通信架構實戰
$402

智能語音處理
~~$680~~ $537

軟體架構原理｜工程方法 (Fundamentals of Software Architecture: A Comprehensive Guide to Patterns, Characteristics, and Best Practices)
~~$1,000~~ $790

深度強化式學習 (Deep Reinforcement Learning in Action)
~~$1,000~~ $850

核心開發者親授！PyTorch 深度學習攻略 (Deep Learning with Pytorch)
$351

TensorFlow 語音識別實戰
~~$680~~ $612

機器學習的統計基礎 : 深度學習背後的核心技術
$606

語音識別服務實戰
~~$580~~ $458

演算法學習手冊｜寫出更有效率的程式 (Learning Algorithms: A Programmer's Guide to Writing Better Code)
$414

語音識別：原理與應用, 2/e
~~$490~~ $416

寫程式前的必學工具：命令列、編輯器、Git/GitHub，軟體開發三本柱一次搞定
~~$620~~ $483

你的第一本 Git 與 GitHub 入門書：輕鬆實作本機與遠端儲存庫的版本控制
~~$690~~ $545

無料 AI：ChatGPT + DeepSeek + Gemini + Perplexity + Copilot + Claude + NotebookLM + Coze + Felo + Dzine + ElevenLabs + Suno + Stable Audio + Runway + Sora + Gamma –「文字、筆記、搜尋、繪圖、動漫、視覺、語音、音效、音樂、影片、簡報」AI Agent – 創意無限

商品描述

語音是新一代人機交互的方式，語音識別是實現這一方式的關鍵環節，也是實現人工智能的基本步驟之一。本書結合當下使用廣泛的Kaldi工具，對語音識別的基本概念和流程進行了詳細的講解，包括GMM-HMM、DNN-HMM、端到端等常用結構，並探討了語音識別在實際應用中的問題，包括說話人自適應、噪聲對抗與環境魯棒性、小語種語音識別、關鍵詞識別與嵌入式應用等方面，也對語音技術的相關前沿課題進行了介紹，包括說話人識別、語種識別、情緒識別、語音合成等方向。本書的寫作以讓讀者快速、直觀地理解概念為目標，只展示最基本的數學公式，同時本書註重理解與實踐相結合，在對語音技術各個概念的講解中都展示了相應的Kaldi語音處理命令，以便讓讀者進一步融會貫通。本書適用於語音識別及相關技術的初學者、在校學生，以及基於Kaldi進行產品研發的同仁，也可以作為語音從業者的參考書目。

作者簡介

湯誌遠，中國科學院大學與清華大學聯合培養博士，清華博士後。
專註於語音技術，研究領域涉及語音識別、聲紋識別、語種識別、口語測評等，在國際重要期刊或會議上累計發表論文數十篇。
個人主頁：http://tangzy.cslt.org。

李藍天，清華大學博士、博士後，專註於機器學習在語音信號處理中的方法研究，研究領域涉及說話人識別、語音識別、音頻事件檢測、語種識別、情感識別等，現已在國際期刊或會議上發表學術論文50餘篇。
個人主頁：http://lilt.cslt.org。

王東，清華大學副研究員，清華大學語音和語言技術中心副主任，英國愛丁堡大學博士，歷任Oracle中國軟件工程師、IBM中國高級軟件工程師、英國愛丁堡大學Marie Curie研究員、法國EURECOM博士後研究員、美國Nuance公司高級研究科學家，在語音領域國際重要期刊或會議上發表論文150餘篇，是IEEE高級會員，APSIPA（亞太信號與信息處理協會）SLA（服務等級協議）主席。
個人主頁：http://wangd.cslt.org。

石穎，哈爾濱工業大學在讀博士，曾任清華大學語音和語言技術中心語音算法工程師，專註於語音相關技術，研究領域涉及語音識別、小語種語音識別、命令詞識別、語音增強。
個人主頁：http://shiying.cslt.org。

蔡雲麒，中國科學院物理研究所與美國橡樹嶺國家實驗室聯合培養博士研究生，清華大學博士後，目前研究方向為語音領域的機器學習算法研究。
在國際期刊和會議上發表論文十多篇。

鄭方，清華大學研究員、博士生導師，清華大學語音和語言技術中心主任，清華大學人工智能研究院聽覺智能研究中心主任，北京信息科學與技術國家研究中心智能科學部常務副主任，得意音通公司創始人。
個人主頁：http://cslt.riit.tsinghua.edu.cn/~fzheng。

目錄大綱

1語音是什麼2
1.1大音希聲2
1.2產生語音4
1.3看見語音5
1.4小結8

2語音識別方法9
2.1總體思路10
2.2聲學模型GMM-HMM 12
2.2.1 HMM 12
2.2.2 GMM 14
2.2. 3訓練15
2.3聲學模型DNN-HMM 16
2.4語言模型18
2.4.1 N-Gram 18
2.4.2 RNN語言模型18
2.5解碼器20
2.6端到端結構22
2.6.1 CTC 23
2.6.2 RNN-T 26
2.6.3 Attention 27
2.6.4 Self-Attention 29
2.6.5 CTC+Attension 31
2.7開源工具和硬件平臺32
2.7.1深度學習平臺32
2.7.2語音識別工具33
2.7.3硬件加速34
2.8小結36

3完整的語音識別實驗37
3.1語音識別實驗的步驟38
3.2語音識別實驗的運行46
3.3其他語音任務案例47
3.4小結47

4前端處理48
4.1數據準備48
4.2聲學特徵提取52
4.2.1預加重（Pre-Emphasis） 54
4.2.2加窗（Windowing） 54
4.2.3離散傅裏葉變換（DFT） 55
4.2. 4 FBank特徵56
4.2.5 MFCC特徵57
4.3小結58

5訓練與解碼59
5.1 GMM-HMM基本流程60
5.1.1訓練60
5.1.2解碼61
5.1.3強制對齊62
5.2 DNN-HMM基本流程63
5.3 DNN配置詳解64
5.3.1 component和component-de 65
5.3.2屬性與描述符66
5.3.3不同組件的使用方法66
5.3.4 LSTM配置範例76
5.4小結81

6說話人自適應84
6.1什麼是說話人自適應84
6.2特徵域自適應與聲道長度規整85
6.3聲學模型自適應：HMM-GMM系統87
6.3.1基於MAP的自適應方法88
6.3.2基於MLLR的自適應方法91
6.4聲學模型自適應：DNN系統93
6.4.1模型參數自適應學習93
6.4.2基於說話人向量的條件學習94
6.5領域自適應95
6.6小結95

7噪聲對抗與環境魯棒性97
7.1環境魯棒性簡介97
7.2前端信號處理方法98
7.2.1語音增強方法99
7.2.2特徵域補償方法103
7.2.3基於DNN的特徵映106
7.3後端模型增強方法108
7.3.1簡單模型增強方法108
7.3. 2模型自適應方法109
7.3.3多場景學習和數據增強方法109
7.4小結110

8小語種語音識別111
8.1小語種語音識別面臨的主要困難112
8.2基於音素共享的小語種語音識別113
8.3基於參數共享的小語種語音識別方法118
8.4其他小語種語音識別方法121
8.4.1 Grapheme建模121
8.4.2網絡結構與訓練方法121
8.4.3數據增強122
8.5小語種語音識別實踐122
8.5.1音頻數據採集122
8.5.2文本數據採集122
8.5.3文本正規化123
8.5.4發音詞典設計123
8.6小結123

9關鍵詞識別與嵌入式應用125
9.1基本概念125
9.2評價指標126
9.3實現方法129
9.3.1總體框架129
9.3.2基於LVCSR的KWS系統130
9.3.3基於示例的KWS 132
9.3.4端到端KWS 133
9.3.5滑動窗口133
9.4嵌入式應用134
9.4.1模型壓縮134
9.4.2遷移學習136
9.4.3網絡結構搜索與設計137
9.5小結137

10說話人識別140
10.1什麼是說話人識別140
10.1.1基本概念140
10.1.2技術難點143
10.1.3發展歷史143
10.2基於知識驅動的特徵設計144
10.3基於線性高斯的統計模型147
10.3.1高斯混合模型-通用背景模型147
10.3.2因子分析150
10.4基於數據驅動的特徵學習154
10.4.1模型結構156
10.4.2訓練策略157
10.4.3多任務學習157
10.5基於端到端的識別模型158
10.6小結160

11語種識別161
11.1什麼是語種識別161
11.2語言的區分性特徵163
11.3統計模型方法165
11.3.1基於聲學特徵的識別方法165
11.3.2基於發音單元的語種識別方法167
11.4深度學習方法170
11.4.1基於DNN的統計模型方法170
11.4.2基於DNN的端到端建模172
11.4.3基於DNN的語言嵌入176
11.5 Kaldi中的語種識別178
11.6小結180

12語音情緒識別182
12.1什麼是語音情緒識別182
12.2語音情緒模型185
12.2.1離散情緒模型186
12.2.2連續情緒模型186
12.3語音情緒特徵提取187
12.3.1語音情緒識別中的典型特徵187
12.3.2局部特徵與全局特徵190
12.4語音情緒建模192
12.4.1離散情緒模型192
12.4.2連續情緒模型195
12.5深度學習方法196
12.5.1基礎DNN方法196
12.5.2特徵學習198
12.5.3遷移學習200
12.5.4多任務學習200
12.6小結201

13語音合成203
13.1激勵-響應模型204
13.2參數合成207
13.3拼接合成208
13.4統計模型合成210
13.5神經模型合成212
13.6基於註意力機制的合成系統214
13.7小結216
參考文獻217
索引243