Kaldi 語音識別實戰

陳果果 等

  • 出版商: 電子工業
  • 出版日期: 2020-03-01
  • 售價: $534
  • 貴賓價: 9.5$507
  • 語言: 簡體中文
  • 頁數: 336
  • 裝訂: 平裝
  • ISBN: 7121378744
  • ISBN-13: 9787121378744

立即出貨 (庫存=1)

買這商品的人也買了...

相關主題

商品描述

剛剛過去的十年是語音技術發展的黃金十年。
2010 年前後,從谷歌公司發布第一個語音搜索應用、
蘋果公司發布第一個語音助手Siri 開始,語音技​​術的發展轉瞬進入了快車道。

語音技術的基礎算法不斷推陳出新,語音任務Benchmark 持續被刷新;
語音產品的應用也從一開始很小眾的語音輸入,逐漸滲透到人們生活的方方面面。

語音產業飛速發展,傳統的語音技術教材已經滿足不了該領域從業者的迫切需求。
本書以目前流行的開源語音識別工具Kaldi 為切入點,
深入淺出地講解了語音識別前沿的技術及它們的實踐應用。
本書的作者們擁有深厚的學術積累及豐富的工業界實戰經驗。

本書適合語音技術相關研究人員及互聯網從業人員學習參考。

作者簡介

陳果果

清華大學本科學位,約翰霍普金斯大學博士學位,
主要研究方向是語音識別及關鍵詞檢索,
師從語音識別開源工具Kaldi主要開發者Daniel Povey,
以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。
博士期間為Google開發了Google的喚醒詞Okay Google的原型,
現在已經用到數以億計的安卓設備及Google智能語音交互設備上。
博士期間同時參與開發語音識別開源工具Kaldi,以及神經網絡開源工具CNTK。
博士畢業以後聯合創辦KITT.AI,專注於語音識別及自然語言處理,
公司於2017年被百度收購,目前擔任百度智能生活事業群組(SLG)主任架構師。

都家宇

本科畢業於大連理工大學,後於澳大利亞新南威爾士大學電子信息工程學院學習,
取得信號處理專業碩士學位。
研究生期間在導師Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。
畢業後先後任職於清華大學語音技術實驗室、百度語音技術部,
以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、
語音喚醒等方面的研發工作。
參與過與Kaldi 相關的工作有:Kaldi nnet1神經網絡框架中lstm 作者;
發起並推動全球大規模的中文開源數據集語音項目AISHELL-1、AISHELL-2,
已服務於清華大學、北京大學、南洋理工大學、
哥倫比亞大學等近200所國內外高校的科研項目。

那興宇

本科和博士均畢業於北京理工大學,主要研究方向是語音識別和語音合成。
先後任職於中國科學院聲學研究所和阿里巴巴機器人,
從事語音識別模型訓練系統和語音交互系統的開發。
目前就職於微軟,擔任資深應用科學家,
從事語音識別算法和技術架構的開發及業務支持工作。
2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發工作,
並維護其中若干示例及OpenSLR的中文語音識別模型。

張俊博

博士畢業於中國科學院聲學研究所,師從顏永紅研究員。
在小米公司從零起主導構建了整套語音算法研究框架,
包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、
用於語音應用的神經網絡部署,均達到了當時的先進水平,
並發表頂會論文若干篇,為後續的語音研發工作建立了基礎。
近期上線了用於外語學習的發音質量評測引擎,
並給Kaldi貢獻了發音良好度評分的代碼。

目錄大綱

1 語音識別技術基礎 1
1.1 語音識別極簡史 1
1.2 語音識別系統架構 6
1.3 一些其他細節11

2 Kaldi概要介紹15
2.1 發展歷史15
2.2 設計思想18
2.3 安裝20
2.4 一個簡單的示例26
2.5 示例介紹34

3 數據整理44
3.1 數據分集44
3.2 數據預處理49
3.3 輸入和輸出機制56
3.4 常用數據表單與處理腳本69
3.5 語言模型相關文件79

4 經典聲學建模技術94
4.1 特徵提取95
4.2 單音子模型的訓練107
4.3 三音子模型訓練128
4.4 特徵變換技術139
4.5 區分性訓練143

5 構圖和解碼147
5.1 N元文法語言模型148
5.2 加權有限狀態轉錄機151
5.3 用WFST表示語言模型156
5.4 狀態圖的構建158
5.5 圖的結構優化170
5.6 最終狀態圖的生成174
5.7 基於令牌傳遞的維特比搜索176
5.8 SimpleDecoder源碼分析178
5.9 Kaldi 解碼器家族187
5.10 帶詞網格生成的解碼189
5.11 用語言模型重打分提升識別率192

6 深度學習聲學建模技術195
6.1 基於神經網絡的聲學模型195
6.2 神經網絡在Kaldi中的實現200
6.3 神經網絡模型訓練214
6.4 神經網絡的區分性訓練228
6.5 與其他深度學習框架的結合242

7 關鍵詞搜索與語音喚醒245
7.1 關鍵詞搜索技術介紹245
7.2 語音檢索247
7.3 語音喚醒263

……