Hey Siri 及 Ok Google 原理 - AI 語音辨識專案真應用開發, 2/e

楊學銳, 晏超, 劉雪松

Hey Siri 及 Ok Google 原理 - AI 語音辨識專案真應用開發, 2/e

預覽內頁

出版商: 深智曬書季｜單本79 折兩書75 折 (部分除外)
出版日期: 2025-05-19
定價: $880
售價: 7.9 折 $695
語言: 繁體中文
頁數: 464
ISBN: 6267569799
ISBN-13: 9786267569795
相關分類: 人工智慧、語音辨識 Speech-recognition
此書翻譯自: 語音識別服務實戰

立即出貨 (庫存 > 10)

Hey Siri 及 Ok Google 原理 - AI 語音辨識專案真應用開發, 2/e-preview-1

買這商品的人也買了...

~~$580~~ $458

程式設計師的自我修養－連結、載入、程式庫
~~$580~~ $458

深入理解 Linux 程式設計：從應用到核心
$564

C++ 新經典：Linux C++ 通信架構實戰
~~$680~~ $537

軟體架構原理｜工程方法 (Fundamentals of Software Architecture: A Comprehensive Guide to Patterns, Characteristics, and Best Practices)
~~$600~~ $474

動手學 GitHub！現代人不能不知道的協同合作平台
~~$580~~ $458

演算法學習手冊｜寫出更有效率的程式 (Learning Algorithms: A Programmer's Guide to Writing Better Code)
~~$520~~ $411

成為 Git 專家的 18天學習計畫
~~$1,180~~ $900

Clean Architecture 無瑕的程式碼－整潔的軟體設計與架構篇 + 實作篇－在整潔的架構上弄髒你的手, 2/e (雙書合購)
~~$490~~ $387

寫程式前的必學工具：命令列、編輯器、Git/GitHub，軟體開發三本柱一次搞定
~~$720~~ $540

輕鬆學會 Android Kotlin 實作開發：精心設計 24個 Lab 讓你快速上手, 3/e
~~$580~~ $458

邊緣 AI－使用 NVIDIA Jetson Orin Nano 開發具備深度學習、電腦視覺與生成式 AI 功能的 ROS2 機器人
~~$620~~ $484

你的第一本 Git 與 GitHub 入門書：輕鬆實作本機與遠端儲存庫的版本控制
~~$850~~ $663

快速精通 iOS 18 程式設計：從零開始活用 Swift 與 SwiftUI 開發技巧
~~$880~~ $695

從源頭就優化 - 動手開發自己的編譯器實戰
~~$620~~ $484

究極 Web 資安心智圖學習法！嚴選12大主題 × 7張心智圖 × 7個實戰，核心技能無痛升級（iThome鐵人賽系列書）
~~$650~~ $507

生成式 AI 專案實踐指南：從模型挑選、上線、RAG 技術到 AI Agent 整合
~~$690~~ $545

無料 AI：ChatGPT + DeepSeek + Gemini + Perplexity + Copilot + Claude + NotebookLM + Coze + Felo + Dzine + ElevenLabs + Suno + Stable Audio + Runway + Sora + Gamma –「文字、筆記、搜尋、繪圖、動漫、視覺、語音、音效、音樂、影片、簡報」AI Agent – 創意無限
~~$980~~ $774

深度學習最佳入門與專題實戰：理論基礎與影像篇
~~$880~~ $695

深度學習最佳入門與專題實戰：自然語言處理、大型語言模型與強化學習篇
~~$690~~ $545

GitHub Copilot 讓你寫程式快 10 倍！AI 程式開發大解放
~~$1,080~~ $853

底層都完全了解 - Kubernetes API Server 原始程式分析
~~$1,080~~ $853

高手用最強大 Java - Spring Boot + Vue.js + uni-app 全端開發
~~$680~~ $530

Raspberry Pi 5 + AI 創新實踐：電腦視覺與人工智慧應用指南
~~$880~~ $695

AI Vision × LLM 電腦視覺應用聖經：OpenCV × YOLO × Ollama 解鎖多模態全攻略
~~$750~~ $593

深度學習詳解｜台大李宏毅老師機器學習課程精粹

深智曬書季｜單本79 折兩書75折 ( 部分除外) 詳見活動內容 »

75折
~~$690~~ $518

AI 音效、語音與音樂：設計創意影片新時代
79折
~~$780~~ $616

演算法圖解原理 x Python 實作 x 創意應用王者歸來, 4/e
79折
~~$880~~ $695

你的網站非常危險 – Web 安全攻防滲透駭客現場直播, 2/e
75折
~~$690~~ $518

AI 工具使用手冊：學會 AI 魔法讓你變身超人不再當麻瓜, 2/e
79折
~~$880~~ $695

比當沖還快 - 量化交易金融智慧賺好幾倍薪水
75折
~~$680~~ $510

AI 行銷引爆術 - 用 AI 讓品牌業績翻倍成長
79折
~~$1,000~~ $790

最實用業界專案精選：用 Spring Boot 和 Spring Cloud 頂級開發, 2/e
79折
~~$1,080~~ $853

去園區當 ARM 工程師 - 嵌入式 C語言全高度昇華, 2/e
79折
~~$780~~ $616

AIGC 大型語言模型 - 個人應用到企業實戰立刻上手
79折
~~$580~~ $458

AI 提示詞：打造精準 Prompt 的對話力與創造力
75折
~~$880~~ $660

Java 網路元件專案 - 大型網際網路企業級最重要應用
79折
~~$880~~ $695

比有線還快 - Wi-Fi 7 標準技術原理應用指南
79折
~~$1,000~~ $790

高速省電 CPU 的未來 - STM32F103 嵌入式 Arm 系統專案實作
79折
~~$690~~ $545

零基礎快速入門：利用 AI 輕鬆打造個人專屬自動化程式
79折
~~$1,200~~ $948

絕對硬派：Windows 核心首度公開 C++ 解析, 2/e
79折
~~$1,080~~ $853

手機感測器也上 AI – 人工智慧邊緣運算實作開發教戰手冊
79折
~~$1,280~~ $1,011

AI 視覺 : 最強入門邁向頂尖高手王者歸來
79折
~~$690~~ $545

輕量又漂亮的 Python Web 框架 - Streamlit AI 時代非學不可
79折
~~$1,580~~ $1,248

資料可視化王者 -- 用 Python 讓 AI 活躍在圖表世界中
79折
~~$720~~ $569

科學方法賺大錢 - Python 進行商品期貨量化交易, 2/e
75折
~~$1,080~~ $810

AI 時代的資料科學：小白到數據專家的全面指南
79折
~~$750~~ $593

AI 時代錢滾錢 - 量化自動交易躺著賺
79折
~~$1,080~~ $853

真正了解核心 - Linux 後端工程開發實作
75折
~~$720~~ $540

AI 繪圖邁向視覺設計
79折
~~$880~~ $695

LLM 走進你的電腦 - 自己動手開發大型語言模型應用

商品描述

＼\好評再版/／

★語音前端處理，語音辨識

★語者自動分段標記演算法原理

★基於WebRTC，Kaldi和gRPC，從零建構穩定、高性能、可商用的語音服務

★前端演算法完整介紹

★語音活動檢測、語音降噪、回聲消除、波束形成

★WebRTC和Kaldi最佳化處理流程

★形成語音演算法SDK

★微服務建構的RPC遠端呼叫框架和SDK

【內容簡介】

本書從語音辨識的概要談起，並且介紹了目前市場概況及常用的工具包括WebRTC及技術人最愛的Kaldi。接下來說明了語音訊號的聲學基和數位化、時頻變換的原理。語音技術中最重要的演算法也有說明，包括了各種VAD、單通道降噪、回聲消除等濾波器、波束形成的介紹。重點部分包括了語音辨識中最重要的特徵提取和聲學模型，如傳統及神經網路基礎的實作法。

在了解原理之後，即開始建立真正專案，包括使用Kaldi實作一個國語的模型。最近流行的語者自動分段標記在本書中也有實作，大量應用了深度學習的模型及音訊庫、函數庫等。如使用了CNCeleb的聲紋資料當作訓練集。在Kaldi的進階應用方面，也實作了其SDK的音訊特徵提取及WebRTC的語音活動檢測。

本書的收尾之作就是使用了gRPC進行一個完整的語音識別服務實作，使用了現在最好用的ProtoBuf的協定進行運作，完成了伺服器/客戶端應用開發，可以說是目前市面上最完整的語音辨識中文圖書。

作者簡介

楊學銳

大疆創新語音交互演算法負責人，復旦大學及Turku大學碩士，長期從事語音演算法、深度學習、人工智慧等領域的研究與商業落地，在相關領域發表多篇論文及專利。

晏超

北京郵電大學碩士，曾任職於HP Labs， Cisco， Technicolor等公司。現為雲從科技語音演算法負責人，從事語音辨識、聲紋識別、說話人日誌、語音合成等方向的演算法研發工作，構建了雲從科技整套語音演算法引擎與應用服務平臺。

劉雪松

OPPO音訊演算法專家，復旦大學碩士，曾任職於美國國家儀器、聲網、雲從科技等公司。在信號處理、音訊演算法和語音演算法等領域有豐富的實戰經驗，在相關領域發表多篇論文及專利。

目錄大綱

Chapter 01 語音辨識概述

▌1.1 語音辨識發展歷程

▌1.2 語音辨識產業與應用

1.2.1 消費級市場

1.2.2 企業級市場

▌1.3 常用語音處理工具

1.3.1 WebRTC

1.3.2 Kaldi

1.3.3 點對點語音辨識工具套件

Chapter 02 語音訊號基礎

▌2.1 語音訊號的聲學基礎

2.1.1 語音產生機制

2.1.2 語音訊號的產生模型

2.1.3 語音訊號的感知

▌2.2 語音訊號的數位化和時頻變換

2.2.1 語音訊號的採樣、量化和編碼

2.2.2 語音訊號的時頻變換

▌2.3 本章小結

Chapter 03 語音前端演算法

▌3.1 語音前端演算法概述

▌3.2 VAD

3.2.1 基於門限判決的VAD

3.2.2 基於高斯混合模型的VAD

3.2.3 基於神經網路的VAD

▌3.3 單通道降噪

3.3.1 譜減法

3.3.2 維納濾波法

3.3.3 音樂雜訊和參數譜減法

3.3.4 貝氏準則下的MMSE

3.3.5 雜訊估計

3.3.6 基於神經網路的單通道降噪

▌3.4 回音消除

3.4.1 回音消除概述

3.4.2 線性自我調整濾波

3.4.3 分區塊頻域自我調整濾波器

3.4.4 雙邊對話檢測

3.4.5 延遲估計

3.4.6 殘留回音消除

3.4.7 基於神經網路的回音消除

▌3.5 麥克風陣列與波束形成

3.5.1 麥克風陣列概述

3.5.2 延遲求和波束形成

3.5.3 最小方差無失真回應波束形成

3.5.4 廣義旁波瓣對消波束形成

3.5.5 後置濾波

3.5.6 基於神經網路的波束形成

▌3.6 聲源定位

3.6.1 GCC-PHAT

3.6.2 基於自我調整濾波的聲源定位

3.6.3 SRP-PHAT

3.6.4 子空間聲源定位演算法

3.6.5 基於神經網路的聲源定位

▌3.7 其他未盡話題

▌3.8 本章小結

Chapter 04 語音辨識原理

▌4.1 特徵提取

4.1.1 特徵前置處理

4.1.2 常見的語音特徵

▌4.2 傳統聲學模型

4.2.1 聲學建模單元

4.2.2 GMM-HMM

4.2.3 強制對齊

▌4.3 DNN-HMM

4.3.1 語音辨識中的神經網路基礎

4.3.2 常見的神經網路結構

▌4.4 語言模型

4.4.1 n-gram 語言模型

4.4.2 語言模型的評價指標

4.4.3 神經語言模型

▌4.5 WFST 解碼器

4.5.1 WFST 原理

4.5.2 常見的WFST 運算

4.5.3 語音辨識中的WFST 解碼器

4.5.4 權杖傳遞演算法

4.5.5 Beam Search

▌4.6 序列區分性訓練

4.6.1 MMI 和bMMI

4.6.2 MPE 和sMBR

4.6.3 詞圖

4.6.4 LF-MMI

▌4.7 點對點語音辨識

4.7.1 CTC

4.7.2 Seq2Seq

▌4.8 語音辨識模型評估

▌4.9 本章小結

Chapter 05 中文漢語模型訓練-- 以multi_cn 為例

▌5.1 Kaldi 安裝與環境設定

▌5.2 Kaldi 中的資料格式與資料準備

▌5.3 語言模型訓練

▌5.4 發音詞典準備

▌5.5 特徵提取

▌5.6 Kaldi 中的Transition 模型

▌5.7 預對齊模型訓練

5.7.1 單音素模型訓練

5.7.2 delta 特徵模型訓練

5.7.3 lda_mllt 特徵變換模型訓練

5.7.4 語者自我調整訓練

▌5.8 資料增強

5.8.1 資料清洗及重分割

5.8.2 速度增強和音量增強

5.8.3 SpecAugment

▌5.9 I-Vector 訓練

5.9.1 對角UBM

5.9.2 I-Vector 提取器

5.9.3 提取訓練資料的I-Vector

▌5.10 神經網路訓練

5.10.1 Chain 模型

5.10.2 Chain 模型態資料準備

5.10.3 神經網路設定與訓練

▌5.11 解碼圖生成

▌5.12 本章小結

▌5.13 附錄

5.13.1 xconfig 中的描述符及網路設定表

5.13.2 Chain 模型中的egs

5.13.3 Kaldi nnet3 中迭代次數和學習率調整

Chapter 06 基於Kaldi 的語者自動分段標記

▌6.1 語者自動分段標記概述

6.1.1 什麼是語者自動分段標記

6.1.2 語者自動分段標記技術

6.1.3 語者自動分段標記評價指標

▌6.2 聲紋模型訓練-- 以CNCeleb 為例

6.2.1 聲紋資料準備

6.2.2 I-Vector 訓練

6.2.3 X-Vector 訓練

6.2.4 LDA/PLDA 後端模型訓練

6.2.5 語者自動分段標記後端模型訓練

▌6.3 本章小結

Chapter 07 基於Kaldi 的語音SDK 實現

▌7.1 語音特徵提取

7.1.1 音訊讀取

7.1.2 音訊特徵提取

▌7.2 基於WebRTC 的語音活動檢測

▌7.3 語者自動分段標記模組

7.3.1 I-Vector 提取

7.3.2 X-Vector 提取

7.3.3 語者自動分段標記演算法實現

▌7.4 語音辨識解碼

▌7.5 本章小結

Chapter 08 基於gRPC 的語音辨識服務

▌8.1 gRPC 語音服務

▌8.2 ProtoBuf 協定定義

▌8.3 基於gRPC 的語音服務實現

8.3.1 gRPC Server 實現

8.3.2 gRPC Client 實現

8.3.3 gRPC 語音服務的編譯與測試

▌8.4 本章小結

Appendix A 參考文獻

類似商品

75折
~~$880~~ $660

Hey Siri 及 Ok Google原理 - AI語音辨識專案真應用開發
79折
$607

語音識別服務實戰
66折
~~$880~~ $581

AI 語音辨識：用 Kaldi 實作應用全集
$594

實時語音處理實踐指南
85折
$454

語音信號處理, 3/e
VIP 95折
~~$594~~ $564

語音辨識：模式、演算法設計與實踐
95折
$507

語音識別基本法：Kaldi 實踐與探索
95折
$1,129

自然語言處理綜論, 2/e (Speech and Language Processing, 2/e)
VIP 95折
~~$252~~ $239

語音識別理論與實踐
95折
$564

WebRTC 音視頻開發：React + Flutter + Go 實戰

最後瀏覽商品 (8)

85折
$658

Swift 物聯網程序設計 (Program the Internet of Things with Swift for iOS)
79折
$465

思維導圖學Python3.7青少年趣味編程(上下全彩印刷)
90折
$2,340

Linear Algebra and Optimization for Machine Learning: A Textbook (Hardcover)
85折
$505

內網安全攻防 : 滲透測試實戰指南
95折
$564

狼書 (捲2)：Node.js Web 應用開發
VIP 95折
~~$3,980~~ $3,781

The LabVIEW Style Book (美國原版)
VIP 95折
~~$1,500~~ $1,425

XAML Developer Reference (Paperback)
~~$590~~ $531

New TOEIC 990 快速上手！新多益閱讀全真試題（1書+2片MP3）