語音辨識:模式、演算法設計與實踐

董雪燕

買這商品的人也買了...

商品描述

隨著深度學技術和電腦硬體設備的發展,
作為自然語言處理領域重要課題的語音識別技術發展迅速,部分應用開始落地,實踐流程也日漸成熟。
本書凝聚作者多年實踐心得和經驗,力求用抽絲剝繭的方式幫讀者梳理出語音識別的學與提升之路,
涉及語音識別發展脈絡、知識地圖、模式識別、核心算法和實踐案例,最終形成“基礎知識—演算法理論—實踐」
的完整閉環,旨在幫助剛入行的語音辨識從業人員梳理知識架構,熟悉開發流程,累積實務經驗。

目錄大綱

第1章語音辨識概述
1.1 走進語音辨識
1.1.1 語音辨識的定義
1.1.2 語音辨識任務的分類
1.1.3 語音辨識是一門交叉學科
1.1.4 語音辨識的應用
1.2 發展概況
1.2.1 人工語音辨識
1.2.2 自動化語音辨識
1.3 面臨的挑戰
1.3.1 語音訊號的複雜性
1.3.2 機器學習模型的限制
1.3.3 硬體設備的限制
1.3.4 應用場景的複雜性
1.3.5 倫理問題
第2章必知必會的數學基礎知識
2.1 向量與矩陣
2.1.1 向量
2.1.2 矩陣
2.2 機率與統計
2.2.1 機率基礎
2.2.2 分類分佈
2.2.3 資料的標準模型-高斯分佈
2.2.4 適用性極為廣泛的貝葉斯定理
2.3 基本函數的用法
2.3.1 一元一次函數
2.3.2 一元二次函數
2.3.3 神經網路中不得不提的階躍函數
2.4 函數的求導
2.4.1 一元函數的導數
2.4.2 多元函數的偏導數
2.4.3 複合函數的導數計算法則
2.4.4 線性模型尋找最佳參數的方法-最小平方法
2.4.5 非線性模型解最小值的方法-梯度下降法
2.4 .6 適用於複雜模型的參數最佳化方法-正規化
2.5 數列與遞推公式
2.5.1 數列的定義
2.5.2 數列的通項公式
2.5.3 由遞推關係式定義數列
第3章模式辨識
3.1模式識別的基本概念
3.1.1 我們應該如何理解模式識別
3.1.2 統計模式識別系統的組成
3.1.3 範例:一個橘子分類系統
3.1.4 模式識別發展史中的里程碑事件
3.2 關於資料集的準備
3.2 .1 資料的收集
3.2.2 資料集的劃分
3.3 預處理
3.3.1 預處理的內涵
3.3.2 常見的預處理思路
3.4 特徵提取
3.4.1 特徵向量和特徵空間
3.4.2 特徵提取的流程
3.4. 3 常見的語音特徵表示
3.4.4 特徵選擇
3.5 分類器
3.5.1 監督學習演算法
3.5.2 統計分類器
3.5.3 深度神經網路模型
3.6 語言模型
3.6.1 N-gram語言模型
3.6.2 實務案例:計算「梅吃餅乾」出現的機率
3.6.3 N-gram模型中平滑的重要性
3.7 辨識效果的評估
3.7.1 錯詞率
3.7.2 句錯率
第4章語音訊號處理
4.1 導言
4.2 語音的產生
4.2.1 語音學在研究什麼
4.2.2 人的發聲機制
4.2.3 語音產生的數字模型
4.2.4 發音的基本單位
4.2.5 辨識連續發音的難點
4.3 語音的傳播
4.3.1 語音的物理傳播原理
4.3.2 語音傳播的聲學機制
4.3.3 無損聲道模型
4.4 語音的感知
4.4.1 人耳可感知的頻率範圍
4.4.2 人耳的聽覺特性
4.4.3 聽覺模型
4.5 數位語音訊號處理
4.5.1語音訊號處理的一般流程
4.5.2 資料取樣
4.5.3 參數化分析
4.5.4 圖形化表示
4.5.5 數位化特徵分析
第5章實務前的準備:安裝必要的Python包
5.1 一些必要的交代
5.2 基礎的語音辨識包:speechRecognition
5.2.1 SpeechRecognition的主要接口
5.2.2 SpeechRecognition的安裝與導入
5.2.3 應用案例:呼叫不同介面辨識英文與中文語音
5.3 語音分析函式庫:Librosa
5.3.1 Librosa的主要介面
5.3.2 Librosa的安裝與導入
5.3.3 應用案例:繪製語音訊號的波形圖和Me1時頻譜圖
5.4 精於數組運算的庫:NumPy
5.4.1 Numpy的安裝與導入
5.4.2 Numpy數組的生成
5.4.3 訪問Numpy數組中的元素
5.4.4 Numpy數組的算術運算
5.5 科學計算的工具包:Scipy
5.5.1 Scipy的核心功能模組
5.5.2 Scipy的安裝與導入
5.5.3 應用案例:最小二乘法擬合直線
5.6 機器學習演算法的工具包:scikit-1earn
5.6. 1 Sk1earn的主要介面
5.6.2 Sk1earn的安裝與導入
5.6.3 應用案例:鳶尾花的分類問題
5.7 工業級深度學習框架:Keras
5.7.1 Keras的主要介面
5.7.2 Keras的安裝與導入
5.7.3應用案例:利用Keras搭建神經網路實現手寫數字識別
5.8 科學研究深度學習框架:PyT0rch
5.8.1 PyTorch的主要庫和模組
5.8.2 PyTorch的安裝
5.8.3 應用案例:利用PyT0rch搭建神經網路實現手寫體識別
第6章資料預處理
6.1 語音訊號分析基礎
6.2 語音訊號的參數化分析
6.2.1 時域分析
6.2.2 頻譜分析
6.2.3 倒譜分析
6.2.4 三種語音訊號分析方法的比較
6.3 去雜訊演算法
6.3 .1 什麼是去雜訊
6.3.2 譜減法
6.3.3 維納濾波演算法
6.3.4 LMS自適應濾波器演算法
6.3.5 基於機器學習的去雜訊演算法
6.4 端點偵測演算法
6.4.1 什麼是端點偵測
6.4. 2 基於短時平均能量和過零率的自適應雙閘限演算法
6.4.3 基於相關函數的端點偵測演算法