智能語音處理
張雄偉,孫蒙,楊吉斌著
- 出版商: 機械工業
- 出版日期: 2020-09-01
- 定價: $474
- 售價: 8.5 折 $403
- 語言: 簡體中文
- 頁數: 248
- 裝訂: 平裝
- ISBN: 7111665325
- ISBN-13: 9787111665328
-
相關分類:
語音辨識 Speech-recognition
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
訊號與系統, 3/e$590$531 -
$301語音信號處理實驗教程 -
數位積體電路設計 ─ 從 IC Design 的實務面介紹 Verilog 硬體描述語言$560$549 -
$534無線傳感器網絡原理 (Principles of wireless sensor networks) -
演算法圖鑑:26種演算法 + 7種資料結構,人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解$450$356 -
語音信號處理, 3/e$534$507 -
最專業的語音辨識全書:使用深度學習實作$680$537 -
$280特徵工程入門與實踐 (Feature Engineering Made Easy) -
基於 CUDA 的 GPU 並行程序開發指南 (GPU Parallel Program Development Using CUDA)$1,074$1,020 -
量子霸權(Quantum Supermacy)世界大戰開打:量子電腦真的來了$600$474 -
$594實時語音處理實踐指南 -
$301圖解語音識別 -
$528深度學習之模型設計:核心算法與案例實踐 -
$359語音信號處理 (C++版) -
$384語音識別:原理與應用 -
$594聲紋技術:從核心算法到工程實踐 -
統計學習要素:機器學習中的數據挖掘、推斷與預測, 2/e (The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2/e)$954$906 -
深度強化式學習 (Deep Reinforcement Learning in Action)$1,000$790 -
$454語音識別基本法:Kaldi 實踐與探索 -
Reinforcement Learning|強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)$1,200$948 -
$862人與機器聽覺:聽見聲音的意義 -
統計之美:人工智慧時代的科學思維, 2/e$620$490 -
$305大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版) -
$556面向信號處理的機器學習 -
$422Wi-Fi 7 開發參考:技術原理、標準和應用
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書從智能化社會對語音處理提出的新要求出發,系統地介紹了智能語音處理涉及的基礎理論、基本技術、
主要方法以及典型的智能語音處理應用,理論與實際緊密結合,適合作為高等院校人工智能、電子信息工程、
物聯網工程、數據科學與大數據技術、通信工程等專業高年級本科生以及智能科學與技術、信號與信息處理、
網絡空間安全、通信與信息系統等學科研究生的參考教材,也可供從事語音處理技術研究與應用的科研及工程技術人員參考。
本書共11章,可分為四個部分。
第一部分是導論,對應第1章,概要介紹了經典語音處理與智能語音處理的基本概念以及語音處理的典型應用。
第二部分是基礎理論,包括第2~5章。
第2章介紹了稀疏和稀疏表示、冗餘字典以及壓縮感知的基本原理和方法;
第3章介紹了隱變量模型,包括高斯混合模型、隱馬爾可夫模型和高斯過程隱變量模型等;
第4章主要介紹主成分分析和非負矩陣分解兩種典型的組合模型;
第5章主要介紹人工神經網絡和深度學習的基礎知識以及深度神經網絡的典型結構。
第三部分是應用實踐,包括第6~10章。
第6章綜合利用稀疏表示、字典學習、深度學習等智能處理技術,分別介紹基於KL展開的字典學習的語音壓縮感知、
基於梅爾倒譜係數重構的抗噪低速率語音編碼以及基於深度自編碼器的抗噪低速率語音編碼這三種方案;
第7章重點介紹了基於非負矩陣分解和基於深度學習的智能語音增強方法;
第8章在介紹語音轉換的基本原理的基礎上,重點介紹了基於非負矩陣分解和基於深度神經網絡的譜轉換方法;
第9章首先介紹了說話人識別系統的框架和模型,然後分別介紹了基於i-vector和基於深度神經網絡的說話人識別方法;
第10章在介紹骨導語音特性和骨導語音盲增強的基本原理的基礎上,
分別介紹了基於長短時記憶網絡和基於均衡-生成組合譜映射的骨導語音盲增強方法。
第四部分是結束語,對應第11章,對全書進行了總結,並對智能語音處理的未來發展進行展望。
本書共11章,可分為四個部分。
第一部分是導論,對應第1章,概要介紹了經典語音處理與智能語音處理的基本概念以及語音處理的典型應用。
第二部分是基礎理論,包括第2~5章。
第2章介紹了稀疏和稀疏表示、冗餘字典以及壓縮感知的基本原理和方法;
第3章介紹了隱變量模型,包括高斯混合模型、隱馬爾可夫模型和高斯過程隱變量模型等;
第4章主要介紹主成分分析和非負矩陣分解兩種典型的組合模型;
第5章主要介紹人工神經網絡和深度學習的基礎知識以及深度神經網絡的典型結構。
第三部分是應用實踐,包括第6~10章。
第6章綜合利用稀疏表示、字典學習、深度學習等智能處理技術,分別介紹基於KL展開的字典學習的語音壓縮感知、
基於梅爾倒譜係數重構的抗噪低速率語音編碼以及基於深度自編碼器的抗噪低速率語音編碼這三種方案;
第7章重點介紹了基於非負矩陣分解和基於深度學習的智能語音增強方法;
第8章在介紹語音轉換的基本原理的基礎上,重點介紹了基於非負矩陣分解和基於深度神經網絡的譜轉換方法;
第9章首先介紹了說話人識別系統的框架和模型,然後分別介紹了基於i-vector和基於深度神經網絡的說話人識別方法;
第10章在介紹骨導語音特性和骨導語音盲增強的基本原理的基礎上,分別介紹了基於長短時記憶網絡和基於均衡-生成組合譜映射的骨導語音盲增強方法。
第四部分是結束語,對應第11章,對全書進行了總結,並對智能語音處理的未來發展進行展望。
目錄大綱
前言
第1章智能語音處理導論1
1.1概述1
1.2經典語音處理2
1.2.1語音處理的發展2
1.2.2語音基本表示方法3
1.2.3語音處理基本方法3
1.2.4經典語音處理方法的不足4
1.3智能語音處理5
1.3.1智能語音處理的基本概念5
1.3.2智能語音處理的基本框架5
1.3.3智能語音處理的基本模型6
1.4語音處理的應用7
1.4.1語音處理的傳統應用領域8
1.4.2語音處理的新應用領域11
1.5小結14
參考文獻14
第2章稀疏和壓縮感知15
2.1引言15
2.2稀疏和稀疏表示16
2.2.1稀疏16
2.2.2稀疏表示18
2.3冗餘字典19
2.3.1基本概念19
2.3.2字典學習20
2.3.3字典學習算法22
2.3.4原子選擇算法25
2.4壓縮感知27
2.4.1基本概念27
2.4.2壓縮感知模型29
2.4.3觀測矩陣30
2.4.4信號重構32
2.5小結33
參考文獻33
第3章隱變量模型36
3.1引言36
3.2高斯混合模型36
3.2.1基本概念37
3.2.2 GMM參數估計37
3.3隱馬爾可夫模型39
3.3.1基本概念39
3.3.2 HMM關鍵問題42
3.4高斯過程隱變量模型48
3.4.1基本模型48
3.4.2 GPLVM的理論來源49
3.4.3 GPLVM模型訓練50
3.5小結51
參考文獻51
第4章組合模型52
4.1引言52
4.2主成分分析53
4.2.1基本模型53
4.2.2求解算法54
4.3非負矩陣分解56
4.3.1基本模型56
4.3.2求解算法57
4.3.3 NMF與其他數據表示模型的關係58
4.4魯棒組合模型60
4.4.1組合模型的魯棒性分析61
4.4.2魯棒主成分分析61
4.4.3魯棒非負矩陣分解63
4.5小結64
參考文獻64
第5章人工神經網絡和深度學習65
5.1引言65
5.2神經網絡基礎66
5.2. 1神經元模型66
5.2.2淺層神經網絡67
5.2.3深度神經網絡68
5.3深度學習69
5.3.1基本概念和形式69
5.3.2深度網絡的學習方法70
5.4深度神經網絡的典型結構71
5.4.1深度置信網絡71
5.4.2自動編碼器與棧式自動編碼器72
5.4.3捲積神經網絡74
5.4.4循環神經網絡75
5.4.5生成式對抗網絡77
5.5小結79
參考文獻79
第6章語音壓縮編碼81
6.1引言81
6.2基於字典學習的語音信號壓縮感知82
6.2.1語音信號的稀疏性82
6.2.2語音在常見變換域的稀疏化83
6.2.3基於KL展開的語音非相乾字典84
6.2.4基於KL非相乾字典的語音壓縮重構87
6.2.5實驗模擬與性能分析88
6.3基於梅爾倒譜係數重構的語音壓縮編碼93
6.3.1基於梅爾倒譜分析的抗噪語音編碼模型94
6.3 .2基於稀疏約束的梅爾倒譜合成96
6.3.3梅爾倒譜係數的量化算法99
6.3.4實驗模擬與性能分析103
6.4基於深度學習的語音壓縮編碼107
6.4.1基於DAE的幅度譜編碼和量化107
6.4.2基於DAE的低速率語音編碼110
6.4.3實驗模擬與性能分析111
6.5小結113
參考文獻113
第7章語音增強115
7.1引言115
7.2語音增強技術基礎116
7.2.1語音增強的估計參數116
7.2.2智能語音增強的語音特徵117
7.2.3性能評價118
7.3基於非負矩陣分解的語音增強120
7.3.1基本模型121
7.3.2基於不相交約束非負矩陣分解的語音增強122
7.3.3基於CNMF字典學習的語音增強127
7.4基於深度學習的語音增強136
7.4.1基於聽覺感知加權的深度神經網絡語音增強方法136
7.4.2基於聽覺感知掩蔽的深度神經網絡語音增強方法141
7.5小結151
參考文獻152
第8章語音轉換155
8.1引言155
8.2語音轉換基本原理155
8.3語音轉換模型與評價156
8.3.1語音分析/合成模型156
8.3.2語音參數的選擇157
8.3.3時間對齊157
8.3.4轉換模型和規則158
8.3.5轉換性能評價159
8.4基於非負矩陣分解的譜轉換160
8.4.1概述160
8.4.2基於捲積非負矩陣分解的譜轉換161
8.4.3聲道譜轉換效果164
8.5基於深度神經網絡的譜轉換168
8.5.1深度學習驅動下的語音轉換168
8.5. 2面向譜轉換的神經網絡模型選擇168
8.5.3基於BLSTM和神經網絡聲碼器交替訓練的語音轉換171
8.6小結176
參考文獻176
第9章說話人識別178
9.1引言178
9.2說話人識別基礎179
9.2 .1說話人識別系統框架179
9.2.2典型的說話人識別模型180
9.3基於i-vector的說話人識別及其改進181
9.3.1基於i-vector的說話人識別概述181
9.3.2用於提高i-vector魯棒性的幀加權方法182
9.3.3實驗結果與分析187
9.4基於深度神經網絡的說話人識別187
9.4.1基於深度神經網絡的說話人識別概述187
9.4.2基於對比度損失函數優化說話人矢量189
9.4.3實驗結果與分析191
9.5說話人識別系統的攻擊與防禦192
9.5.1攻擊和防禦的背景192
9.5.2說話人識別系統的攻擊方法192
9.5.3說話人識別攻擊的檢測方法194
9.5.4實驗結果與分析196
9.6小結196
參考文獻197
第10章骨導語音增強200
10.1引言200
10.2骨導語音增強基礎201
10.2.1骨導語音的產生與特性201
10.2.2骨導語音盲增強的特點202
10.2.3骨導語音盲增強的典型方法203
10.3基於長短時記憶網絡的骨導語音盲增強205
10.3.1骨導/氣導語音的譜映射206
10.3.2基於深度殘差BLSTM的骨導語音盲增強方法207
10.3.3實驗模擬及性能分析211
10.4基於均衡-生成組合譜映射的骨導語音盲增強215
10.4.1均衡法215
10.4.2基於均衡-生成組合譜映射的骨導語音盲增強方法216
10.4.3實驗模擬及性能分析218
10.5小結222
參考文獻223
第11章智能語音處理展望224
11.1智能語音處理的未來224
11.2有待解決的關鍵技術225
11.2.1語音識別226
11.2 .2語音合成228
11.2.3語音增強229
11.2.4語音處理中的安全問題230
11.3小結230
參考文獻230
縮略語232
