語音識別理論與實踐
莫宏偉
- 出版商: 中國水利水電
- 出版日期: 2023-10-31
- 定價: $252
- 售價: 8.5 折 $214
- 語言: 簡體中文
- 頁數: 180
- 裝訂: 平裝
- ISBN: 7522619025
- ISBN-13: 9787522619026
-
相關分類:
語音辨識 Speech-recognition
立即出貨
買這商品的人也買了...
-
秋聲教你玩 -- C語言底層破解基礎篇 : 給挑戰者的11堂課$320$250 -
$230語音信號處理, 3/e -
$539直擊招聘 : 程序員面試筆試數據結構深度解析 -
秋聲教你玩組合語言 : 指令精華篇$450$351 -
管理資訊系統概論, 13/e (Laudon: Essentials of Mis, 13/e)$580$568 -
$505低功耗藍牙智能硬件開發實戰 -
語音信號處理, 3/e$534$507 -
$594實時語音處理實踐指南 -
圖解語音識別$354$336 -
TQC+ Python 3.x 機器學習基礎與應用特訓教材$590$502 -
$862人與機器聽覺:聽見聲音的意義 -
現代 C++ 語言核心特性解析$719$683 -
$517C++20 高級編程 -
Hey Siri 及 Ok Google原理 - AI語音辨識專案真應用開發$880$695 -
Android Studio 開發實戰:從零基礎到 App 上線, 3/e$893$848 -
人手一本的資安健診實作課:不是專家也能自己動手做!(Win10 / Win11適用)$560$560 -
$414語音識別:原理與應用, 2/e -
語音辨識:模式、演算法設計與實踐$594$564 -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748 -
智能語音應用開發$294$279 -
PyTorch 語音識別實戰$414$393 -
數位訊號處理 - Python 程式實作, 3/e (附範例光碟)$620$558 -
Vue3 從零開始:基礎邁向實務$780$616 -
CPython 設計與實現$599$569 -
Android 智能座艙開發:從源碼到實踐$594$564
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
VIP 95折
深度學習:基礎與概念$1,128$1,072 -
85折
$505GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL 計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
本書主要介紹語音識別原理及其相關應用。
全書共9章,分為五大部分:
第一部分(第1章)介紹語音識別的發展歷史和語音識別領域常用的數據集與工具箱;
第二部分(第2章)介紹在語音識別領域常用的語音信號基礎知識和聲學特徵的提取;
第三部分(第3章至第7章)詳細介紹語音識別的聲學模型、語言模型、
解碼工具,並對語音識別領域的研究熱點(端到端語音識別)進行探討;
第四部分(第8章)利用語音識別開源工具包Kaldi進行語音識別實戰,包括Kaldi的安裝以及如何訓練aishell語音識別工程;
第五部分(第9章)結合序列到序列的語音識別模型和序列到序列的問答模型來構建語音交互系統。
本書既可作為計算機科學與技術、電子科學與技術、控制工程與科學、智能科學與技術等專業的本科教材,
也可作為研究生教材,還可供從事語音識別、人工智能等研究的科研人員參考。
目錄大綱
前言
第1章緒論
1.1 語音辨識簡史
1.1.1 語音辨識早期探索
1.1.2 機率模型一統江湖
1.1.3 神經網絡異軍突起
1.1.4 商業應用推波助瀾
1.2 國內發展現狀
1.3 語音辨識框架
1.3.1 經典方法
1.3 .2 機率模型
1.3.3 深度神經網絡一隱馬可夫(DNN—HMM)模型
1.3.4 端對端語音辨識
1.4 開源工具與資料集
1.4.1 深度學習架構
1.4.2 開源工具
1.4.3 資料集
本章小結
課後習題
第2章語音基礎知識
2.1 語音訊號基礎
2.1.1 聲波的特性
2.1.2 聲音的擷取裝置
2.1.3 聲音的取樣
2.1.4 聲音的量化
2.1.5 語音的編碼
2.2 聲學特徵擷取
2.2.1 預處理
2.2.2 傅立葉變換
2.2.3 聽覺特性
2.2.4 線性預測
2.2.5 倒譜分析
2.2.6 聲學特徵
本章小結
課後習題
第3章聲學模型
3.1 高斯混合模型
3.1. 1 機率統計
3.1.2 高斯分佈
3.1.3 GMM的組成與表示
3.2 隱馬可夫模型
3.2.1 隱馬可夫模型基本概念
3.2.2 隱馬可夫模型的定義
3.2.3 隱馬可夫模型的三個基本問題
3.3 高斯混合模型一隱馬可夫模型
3.4 基於隱馬可夫模型的語音辨識
3.4.1 建模單元
3.4.2 發音過程與隱馬可夫模型狀態
3.4.3 串接隱馬爾可夫模型
本章小結
課後習題
第4章語言模型
4.1 n—gram模型
4.2 評估指標
4.3 平滑技術
4.3.1 Good—Turing折扣法
4.3.2 Jelinek—Mercer插值法
4.3.3 Kneser—Ney內插法
4.3. 4 Katz回退法
4.4 語言模型的訓練
4.5 預訓練語言模型
4.5.1 基於自回歸語言模型的預訓練技術
4.5.2 基於自編碼語言模型的預訓練技術
4.5.3 基於序列到序列語言模型的預訓練技術
4.5.4 基於前綴語言模型的預訓練技術
4.5.5 基於排列語言模型的預訓練技術
4.5.6 預訓練技術的改進方法
本章小結 課後
習題
第5章加權有限狀態解碼器
5.1 基於動態網絡的Viterbi解碼
5.2 加權有限狀態轉換器理論
5.2.1 基本概念
5.2.2 半環
5.3 HCLG建構
5.3.1 語料準備
5.3.2 建構語法模型
5.3.3 建構發音字典模型
5.3.4 合併發音字典與語法模型
5.3.5 建構情境模型與發音字典模型與文法模型
5.3.6 建構HCLG
本章小結
課後習題
第6章深度神經網絡模型
6.1 深度學習
6.2 神經網絡
6.2.1 人腦神經網絡
6.2.2 人工神經網絡
6.2 .3 神經網絡的發展歷史
6.2.4 深度神經網絡
6.3 正向學習過程
6.3.1 正向學習概述
6.3.2 正向傳播的流程
6.3.3 正向傳播的原理
6.4 反向調整過程
6.4.1 反向調整概述
6.4.2 反向傳播過程詳解
6.4.3 深層模型反向調整的問題與對策
6.5 神經網絡結構
6.5.1 捲積神經網絡
6.5.2 長短時間記憶網絡
6.5.3 門控循環單元
6.5.4 時延神經網絡
本章小結
課後習題
第7章端對端語音辨識
7.1 CTC
7.2 RNN
7.3 Encoder.Decoder框架與Attention模型
7.4 Hybrid CTC/Attention
7.5 Transforxner
本章小結
課後習題
第8章Kaldi實戰
