圖解語音識別

[日]荒木雅弘 陳舒揚 , 楊文剛 譯

  • 圖解語音識別-preview-1
  • 圖解語音識別-preview-2
圖解語音識別-preview-1

買這商品的人也買了...

商品描述

本書從語音識別的歷史和基礎知識講起,
通過圖解的方式對語音識別技術進行了盡可能簡單的解釋。
內容涉及語音學基礎知識、統計模式識別、有限狀態自動機、
語音特徵的提取、聲學模型和語言模型、搜索算法和基於WFST的語音識別技術等。
此外,本書沒有將語音識別限定在“將語音轉換成文本”的傳統範疇內,
而是在此基礎上,還講解了從語音識別技術到人機對話技術的演進過程和方法。
內容涉及語義分析和語音對話系統的實現。  

作者簡介

荒木雅弘

 1964年出生於日本大阪。
1993年完成了日本京都大學研究生院研究科信息工程專業博士課程的學習。
先後擔任過京都大學工學部助教和京都大學綜合信息媒體中心講師。
1999年開始擔任日本京都工藝纖維大學工藝系助理教授,
2007年晉升為研究生院工藝科學研究科副教授。
目前正在開發以語義網為知識庫的對話系統,
研究用於多模態對話系統的描述語言。


陳舒揚(譯者)

軟件開發工程師,任職於某日企,從事軟件開發工作。
熱愛編程和遊戲,崇尚開源精神,對機器學習領域的東西都很著迷。


楊文剛(譯者)

長期從事軟件開發和系統運維工作。
現任職於某世界五百強企業,探索數字化轉型業務,
內容涉及大數據、機器學習、深度學習等技術。  
 

目錄大綱

目錄  
第1章開篇  
1.1什麼是語音識別2  
1.2語音識別的歷史4  
1.3語音識別的用處6  
1.4為什麼很難8  
1.5本書的目標10  
1.6小結12  

第2章什麼是語音  
2.1語音學16  
2.2聲音是如何產生的——發音語音學16  
2.3聲音的真面目——聲學語音學23  
2.4聲音是如何被感知的——感知語音學29  
2.5總結32 
 
第3章統計模式識別  
3.1什麼是模式識別34  
3.2統計模式識別的思路36  
3.3生成模型的訓練40  
3.4判別模型的訓練44  
3.5統計語音識別的概要45  
3.6總結48  

第4章有限狀態自動機  
4.1什麼是有限狀態自動機50  
4.2用有限狀態自動機表達的語言53  
4.3各種各樣的有限狀態自動機55  
4.4有限狀態自動機的性質58  
4.5總結59  

第5章語音特徵的提取  
5.1特徵提取的步驟62  
5.2語音信號的數字化64  
5.3人類聽覺模擬——頻譜分析67  
5.4另一個精巧設計——倒譜分析69  
5.5噪聲去除72  
5.6總結73  

第6章語音識別:基本聲學模型  
6.1聲學模型的單位76  
6.2什麼是隱馬爾可夫模型78  
6.3隱馬爾可夫模型的概率計算81  
6.4狀態序列的估計83  
6.5參數訓練85  
6.6總結89  

第7章語音識別:*級聲學模型  
7.1實際的聲學模型92  
7.2判別訓練94  
7.3深度學習96  
7.4總結98  

第8章語音識別:語言模型  
8.1基於語法規則的語言模型100  
8.2統計語言模型的思路101  
8.3統計語言模型的建立方法103  
8.4總結108  

第9章語音識別:搜索算法  
9.1填補聲學模型和語言模型之間的空隙112  
9.2狀態空間搜索113  
9.3用樹形字典減少浪費115  
9.4用集束搜索縮小範圍116  
9.5用多次搜索提高精度118  
9.6總結120  

第10章語音識別:WFST運算  
10.1 WFST的合成運算124  
10.2確定化129  
10.3權重移動133  
10.4 *小化134  
10.5總結135 
 
第11章語音識別:使用WFST進行語音識別  
11.1 WFST轉換138  
11.2聲學模型的WFST轉換139  
11.3發音字典的WFST轉換141  
11.4語言模型的WFST轉換142  
11.5 WFST的搜索144  
11.6總結145  

第12章語義分析  
12.1什麼是語義表示148  
12.2基於規則的語義分析處理151  
12.3基於統計的語義分析處理153  
12.4智能手機的語音服務156  
12.5總結159  

第13章語音對話系統的實現  
13.1對話系統的開發方法162  
13.2基於規則的對話管理164  
13.3針對對話管理的統計方法166  
13.4總結170
  
第14章終篇  
14.1語音分析工具WaveSurfer 174  
14.2 HMM構建工具HTK 175  
14.3大詞彙量連續語音識別引擎Julius 177  
14.4虛擬代理對話工具MMDAgent 179  
14.5深入學習之路180  

思考題的解答182  
參考文獻188  
後記191