Hey Siri 及 Ok Google 原理 - AI 語音辨識專案真應用開發, 2/e
楊學銳, 晏超, 劉雪松
- 出版商: 深智
- 出版日期: 2025-05-19
- 定價: $880
- 售價: 7.9 折 $695
- 語言: 繁體中文
- 頁數: 464
- ISBN: 6267569799
- ISBN-13: 9786267569795
-
相關分類:
語音辨識 Speech-recognition
- 此書翻譯自: 語音識別服務實戰
立即出貨 (庫存 < 11)
買這商品的人也買了...
-
程式設計師的自我修養-連結、載入、程式庫$580$493 -
深入理解 Linux 程式設計:從應用到核心$580$493 -
C++ 新經典:Linux C++ 通信架構實戰$594$564 -
軟體架構原理|工程方法 (Fundamentals of Software Architecture: A Comprehensive Guide to Patterns, Characteristics, and Best Practices)$680$537 -
語音識別基本法:Kaldi 實踐與探索$534$507 -
動手學 GitHub!現代人不能不知道的協同合作平台$600$510 -
演算法學習手冊|寫出更有效率的程式 (Learning Algorithms: A Programmer's Guide to Writing Better Code)$580$458 -
計算機視覺三維測量與建模$414$393 -
Clean Architecture 無瑕的程式碼-整潔的軟體設計與架構篇 + 實作篇-在整潔的架構上弄髒你的手, 2/e (雙書合購)$1,180$900 -
寫程式前的必學工具:命令列、編輯器、Git/GitHub,軟體開發三本柱一次搞定$490$387 -
邊緣 AI - 使用 NVIDIA Jetson Orin Nano 開發具備深度學習、電腦視覺與生成式 AI 功能的 ROS2 機器人$580$458 -
你的第一本 Git 與 GitHub 入門書:輕鬆實作本機與遠端儲存庫的版本控制$620$484 -
從源頭就優化 - 動手開發自己的編譯器實戰$880$695 -
生成式 AI 專案實踐指南:從模型挑選、上線、RAG 技術到 AI Agent 整合$650$507 -
無料 AI:ChatGPT + DeepSeek + Gemini + Perplexity + Copilot + Claude + NotebookLM + Coze + Felo + Dzine + ElevenLabs + Suno + Stable Audio + Runway + Sora + Gamma –「文字、筆記、搜尋、繪圖、動漫、視覺、語音、音效、音樂、影片、簡報」AI Agent – 創意無限$690$545 -
深度學習最佳入門與專題實戰:理論基礎與影像篇$980$774 -
深度學習最佳入門與專題實戰:自然語言處理、大型語言模型與強化學習篇$880$695 -
GitHub Copilot 讓你寫程式快 10 倍!AI 程式開發大解放$690$545 -
底層都完全了解 - Kubernetes API Server 原始程式分析$1,080$853 -
Raspberry Pi 5 + AI 創新實踐:電腦視覺與人工智慧應用指南$680$530 -
AI Vision × LLM 電腦視覺應用聖經:OpenCV × YOLO × Ollama 解鎖多模態全攻略$880$695 -
深度學習詳解|台大李宏毅老師機器學習課程精粹$750$593 -
OpenAI API 開發手冊 - 用 Responses API、Realtime API、MCP、Agents SDK、Function calling 打造即時語音、RAG、Agent 應用$790$624 -
跟 NVIDIA 學 LLM 基礎!GPT、Transformer、attention、self-attention 機制、seq2seq 架構,紮穩大型語言模型的深度學習建模技術 (《跟 NVIDIA 學深度學習》修訂版)$880$695 -
LLM 最強重武裝 - RAG 開發應用優化現場直擊$980$774
商品描述
\\好評再版//
★語音前端處理,語音辨識
★語者自動分段標記演算法原理
★基於WebRTC,Kaldi和gRPC,從零建構穩定、高性能、可商用的語音服務
★前端演算法完整介紹
★語音活動檢測、語音降噪、回聲消除、波束形成
★WebRTC和Kaldi最佳化處理流程
★形成語音演算法SDK
★微服務建構的RPC遠端呼叫框架和SDK
【內容簡介】
本書從語音辨識的概要談起,並且介紹了目前市場概況及常用的工具包括WebRTC及技術人最愛的Kaldi。接下來說明了語音訊號的聲學基和數位化、時頻變換的原理。語音技術中最重要的演算法也有說明,包括了各種VAD、單通道降噪、回聲消除等濾波器、波束形成的介紹。重點部分包括了語音辨識中最重要的特徵提取和聲學模型,如傳統及神經網路基礎的實作法。
在了解原理之後,即開始建立真正專案,包括使用Kaldi實作一個國語的模型。最近流行的語者自動分段標記在本書中也有實作,大量應用了深度學習的模型及音訊庫、函數庫等。如使用了CNCeleb的聲紋資料當作訓練集。在Kaldi的進階應用方面,也實作了其SDK的音訊特徵提取及WebRTC的語音活動檢測。
本書的收尾之作就是使用了gRPC進行一個完整的語音識別服務實作,使用了現在最好用的ProtoBuf的協定進行運作,完成了伺服器/客戶端應用開發,可以說是目前市面上最完整的語音辨識中文圖書。
作者簡介
楊學銳
大疆創新語音交互演算法負責人,復旦大學及Turku大學碩士,長期從事語音演算法、深度學習、人工智慧等領域的研究與商業落地,在相關領域發表多篇論文及專利。
晏超
北京郵電大學碩士,曾任職於HP Labs, Cisco, Technicolor等公司。 現為雲從科技語音演算法負責人,從事語音辨識、聲紋識別、說話人日誌、語音合成等方向的演算法研發工作,構建了雲從科技整套語音演算法引擎與應用服務平臺。
劉雪松
OPPO音訊演算法專家,復旦大學碩士,曾任職於美國國家儀器、聲網、雲從科技等公司。 在信號處理、音訊演算法和語音演算法等領域有豐富的實戰經驗,在相關領域發表多篇論文及專利。
目錄大綱
Chapter 01 語音辨識概述
▌1.1 語音辨識發展歷程
▌1.2 語音辨識產業與應用
1.2.1 消費級市場
1.2.2 企業級市場
▌1.3 常用語音處理工具
1.3.1 WebRTC
1.3.2 Kaldi
1.3.3 點對點語音辨識工具套件
Chapter 02 語音訊號基礎
▌2.1 語音訊號的聲學基礎
2.1.1 語音產生機制
2.1.2 語音訊號的產生模型
2.1.3 語音訊號的感知
▌2.2 語音訊號的數位化和時頻變換
2.2.1 語音訊號的採樣、量化和編碼
2.2.2 語音訊號的時頻變換
▌2.3 本章小結
Chapter 03 語音前端演算法
▌3.1 語音前端演算法概述
▌3.2 VAD
3.2.1 基於門限判決的VAD
3.2.2 基於高斯混合模型的VAD
3.2.3 基於神經網路的VAD
▌3.3 單通道降噪
3.3.1 譜減法
3.3.2 維納濾波法
3.3.3 音樂雜訊和參數譜減法
3.3.4 貝氏準則下的MMSE
3.3.5 雜訊估計
3.3.6 基於神經網路的單通道降噪
▌3.4 回音消除
3.4.1 回音消除概述
3.4.2 線性自我調整濾波
3.4.3 分區塊頻域自我調整濾波器
3.4.4 雙邊對話檢測
3.4.5 延遲估計
3.4.6 殘留回音消除
3.4.7 基於神經網路的回音消除
▌3.5 麥克風陣列與波束形成
3.5.1 麥克風陣列概述
3.5.2 延遲求和波束形成
3.5.3 最小方差無失真回應波束形成
3.5.4 廣義旁波瓣對消波束形成
3.5.5 後置濾波
3.5.6 基於神經網路的波束形成
▌3.6 聲源定位
3.6.1 GCC-PHAT
3.6.2 基於自我調整濾波的聲源定位
3.6.3 SRP-PHAT
3.6.4 子空間聲源定位演算法
3.6.5 基於神經網路的聲源定位
▌3.7 其他未盡話題
▌3.8 本章小結
Chapter 04 語音辨識原理
▌4.1 特徵提取
4.1.1 特徵前置處理
4.1.2 常見的語音特徵
▌4.2 傳統聲學模型
4.2.1 聲學建模單元
4.2.2 GMM-HMM
4.2.3 強制對齊
▌4.3 DNN-HMM
4.3.1 語音辨識中的神經網路基礎
4.3.2 常見的神經網路結構
▌4.4 語言模型
4.4.1 n-gram 語言模型
4.4.2 語言模型的評價指標
4.4.3 神經語言模型
▌4.5 WFST 解碼器
4.5.1 WFST 原理
4.5.2 常見的WFST 運算
4.5.3 語音辨識中的WFST 解碼器
4.5.4 權杖傳遞演算法
4.5.5 Beam Search
▌4.6 序列區分性訓練
4.6.1 MMI 和bMMI
4.6.2 MPE 和sMBR
4.6.3 詞圖
4.6.4 LF-MMI
▌4.7 點對點語音辨識
4.7.1 CTC
4.7.2 Seq2Seq
▌4.8 語音辨識模型評估
▌4.9 本章小結
Chapter 05 中文漢語模型訓練-- 以multi_cn 為例
▌5.1 Kaldi 安裝與環境設定
▌5.2 Kaldi 中的資料格式與資料準備
▌5.3 語言模型訓練
▌5.4 發音詞典準備
▌5.5 特徵提取
▌5.6 Kaldi 中的Transition 模型
▌5.7 預對齊模型訓練
5.7.1 單音素模型訓練
5.7.2 delta 特徵模型訓練
5.7.3 lda_mllt 特徵變換模型訓練
5.7.4 語者自我調整訓練
▌5.8 資料增強
5.8.1 資料清洗及重分割
5.8.2 速度增強和音量增強
5.8.3 SpecAugment
▌5.9 I-Vector 訓練
5.9.1 對角UBM
5.9.2 I-Vector 提取器
5.9.3 提取訓練資料的I-Vector
▌5.10 神經網路訓練
5.10.1 Chain 模型
5.10.2 Chain 模型態資料準備
5.10.3 神經網路設定與訓練
▌5.11 解碼圖生成
▌5.12 本章小結
▌5.13 附錄
5.13.1 xconfig 中的描述符及網路設定表
5.13.2 Chain 模型中的egs
5.13.3 Kaldi nnet3 中迭代次數和學習率調整
Chapter 06 基於Kaldi 的語者自動分段標記
▌6.1 語者自動分段標記概述
6.1.1 什麼是語者自動分段標記
6.1.2 語者自動分段標記技術
6.1.3 語者自動分段標記評價指標
▌6.2 聲紋模型訓練-- 以CNCeleb 為例
6.2.1 聲紋資料準備
6.2.2 I-Vector 訓練
6.2.3 X-Vector 訓練
6.2.4 LDA/PLDA 後端模型訓練
6.2.5 語者自動分段標記後端模型訓練
▌6.3 本章小結
Chapter 07 基於Kaldi 的語音SDK 實現
▌7.1 語音特徵提取
7.1.1 音訊讀取
7.1.2 音訊特徵提取
▌7.2 基於WebRTC 的語音活動檢測
▌7.3 語者自動分段標記模組
7.3.1 I-Vector 提取
7.3.2 X-Vector 提取
7.3.3 語者自動分段標記演算法實現
▌7.4 語音辨識解碼
▌7.5 本章小結
Chapter 08 基於gRPC 的語音辨識服務
▌8.1 gRPC 語音服務
▌8.2 ProtoBuf 協定定義
▌8.3 基於gRPC 的語音服務實現
8.3.1 gRPC Server 實現
8.3.2 gRPC Client 實現
8.3.3 gRPC 語音服務的編譯與測試
▌8.4 本章小結
Appendix A 參考文獻

















