語音識別理論與實踐

莫宏偉

買這商品的人也買了...

商品描述

本書主要介紹語音識別原理及其相關應用。
全書共9章,分為五大部分:
第一部分(第1章)介紹語音識別的發展歷史和語音識別領域常用的數據集與工具箱;
第二部分(第2章)介紹在語音識別領域常用的語音信號基礎知識和聲學特徵的提取;
第三部分(第3章至第7章)詳細介紹語音識別的聲學模型、語言模型、
解碼工具,並對語音識別領域的研究熱點(端到端語音識別)進行探討;
第四部分(第8章)利用語音識別開源工具包Kaldi進行語音識別實戰,包括Kaldi的安裝以及如何訓練aishell語音識別工程;
第五部分(第9章)結合序列到序列的語音識別模型和序列到序列的問答模型來構建語音交互系統。
 本書既可作為計算機科學與技術、電子科學與技術、控制工程與科學、智能科學與技術等專業的本科教材,
也可作為研究生教材,還可供從事語音識別、人工智能等研究的科研人員參考。

目錄大綱

前言
第1章緒論
1.1 語音辨識簡史
1.1.1 語音辨識早期探索
1.1.2 機率模型一統江湖
1.1.3 神經網路異軍突起
1.1.4 商業應用推波助瀾
1.2 國內發展現狀
1.3 語音辨識框架
1.3.1 經典方法
1.3 .2 機率模型
1.3.3 深度神經網路一隱馬可夫(DNN—HMM)模型
1.3.4 端對端語音辨識
1.4 開源工具與資料集
1.4.1 深度學習架構
1.4.2 開源工具
1.4.3 資料集
本章小結
課後習題
第2章語音基礎知識
2.1 語音訊號基礎
2.1.1 聲波的特性
2.1.2 聲音的擷取裝置
2.1.3 聲音的取樣
2.1.4 聲音的量化
2.1.5 語音的編碼
2.2 聲學特徵擷取
2.2.1 預處理
2.2.2 傅立葉變換
2.2.3 聽覺特性
2.2.4 線性預測
2.2.5 倒譜分析
2.2.6 聲學特徵
本章小結
課後習題
第3章聲學模型
3.1 高斯混合模型
3.1. 1 機率統計
3.1.2 高斯分佈
3.1.3 GMM的組成與表示
3.2 隱馬可夫模型
3.2.1 隱馬可夫模型基本概念
3.2.2 隱馬可夫模型的定義
3.2.3 隱馬可夫模型的三個基本問題
3.3 高斯混合模型一隱馬可夫模型
3.4 基於隱馬可夫模型的語音辨識
3.4.1 建模單元
3.4.2 發音過程與隱馬可夫模型狀態
3.4.3 串接隱馬爾可夫模型
本章小結
課後習題
第4章語言模型
4.1 n—gram模型
4.2 評估指標
4.3 平滑技術
4.3.1 Good—Turing折扣法
4.3.2 Jelinek—Mercer插值法
4.3.3 Kneser—Ney內插法
4.3. 4 Katz回退法
4.4 語言模型的訓練
4.5 預訓練語言模型
4.5.1 基於自回歸語言模型的預訓練技術
4.5.2 基於自編碼語言模型的預訓練技術
4.5.3 基於序列到序列語言模型的預訓練技術
4.5.4 基於前綴語言模型的預訓練技術
4.5.5 基於排列語言模型的預訓練技術
4.5.6 預訓練技術的改進方法
本章小結 課後
習題
第5章加權有限狀態解碼器
5.1 基於動態網絡的Viterbi解碼
5.2 加權有限狀態轉換器理論
5.2.1 基本概念
5.2.2 半環
5.3 HCLG建構
5.3.1 語料準備
5.3.2 建構語法模型
5.3.3 建構發音字典模型
5.3.4 合併發音字典與語法模型
5.3.5 建構情境模型與發音字典模型與文法模型
5.3.6 建構HCLG
本章小結
課後習題
第6章深度神經網路模型
6.1 深度學習
6.2 神經網路
6.2.1 人腦神經網路
6.2.2 人工神經網路
6.2 .3 神經網路的發展歷史
6.2.4 深度神經網路
6.3 正向學習過程
6.3.1 正向學習概述
6.3.2 正向傳播的流程
6.3.3 正向傳播的原理
6.4 反向調整過程
6.4.1 反向調整概述
6.4.2 反向傳播過程詳解
6.4.3 深層模型反向調整的問題與對策
6.5 神經網路結構
6.5.1 卷積神經網路
6.5.2 長短時間記憶網路
6.5.3 門控循環單元
6.5.4 時延神經網路
本章小結
課後習題
第7章端對端語音辨識
7.1 CTC
7.2 RNN
7.3 Encoder.Decoder框架與Attention模型
7.4 Hybrid CTC/Attention
7.5 Transforxner
本章小結
課後習題
第8章Kaldi實戰