Hey Siri 及 Ok Google原理 - AI語音辨識專案真應用開發
楊學銳、晏超、劉雪松
- 出版商: 深智
- 出版日期: 2022-09-20
- 定價: $880
- 售價: 7.9 折 $695
- 語言: 繁體中文
- 頁數: 464
- ISBN: 6267146480
- ISBN-13: 9786267146484
-
相關分類:
語音辨識 Speech-recognition
-
其他版本:
Hey Siri 及 Ok Google 原理 - AI 語音辨識專案真應用開發, 2/e
買這商品的人也買了...
-
微算機原理與應用-x86/x64微處理器軟體、硬體、界面與系統, 6/e (精裝本)$750$675 -
$594實時語音處理實踐指南 -
圖解語音識別$354$336 -
AI 語音辨識:用 Kaldi 實作應用全集(書況差限門市銷售)$880$616 -
軟體架構原理|工程方法 (Fundamentals of Software Architecture: A Comprehensive Guide to Patterns, Characteristics, and Best Practices)$680$537 -
$517WebRTC 技術詳解:從0到1構建多人視頻會議系統 -
Google 翻譯實作:機器翻譯 NLP 基礎及模型親手打造$1,200$948 -
$520監控平臺解密:IT系統風險感知和洞察 -
$539Python 自動化辦公與 RPA 從入門到實戰 -
每個程式設計師都應該要知道的50個演算法$690$518 -
ASP.NET Core 工程師不可不知的 10大安全性漏洞與防駭方法$690$538 -
Clean Architecture 無瑕的程式碼-整潔的軟體設計與架構篇 + 實作篇-在整潔的架構上弄髒你的手 (雙書合購)$1,080$820 -
Test-Driven Development 學習手冊$580$458 -
讓響應式(RWD)網頁設計變簡單:Bootstrap 開發速成, 3/e (附554分鐘實作影音/範例檔)$520$390 -
Python:量化交易 Ta-Lib 技術指標 139個活用技巧$620$484 -
AI 必須!從做中學貝氏統計 – 從事機器學習、深度學習、資料科學、大數據分析一定要懂的統計利器 (Bayesian Statistics for Beginners: A Step-By-Step Approach)$1,200$948 -
全格局使用 PyTorch -- 深度學習和圖神經網路 -- 基礎篇$880$695 -
只要一行指令!FFmpeg 應用開發完全攻略$880$695 -
開發聊天機器人,比你想的還簡單!$790$624 -
Microsoft Azure AI 認知服務基礎必修課 - 使用 C# (含MCF AI-900國際認證模擬試題)$500$425 -
超完美 CSS 設計風格指南$520$390 -
$414語音識別:原理與應用, 2/e -
語音辨識:模式、演算法設計與實踐$594$564 -
語音識別理論與實踐$252$239 -
台灣之光物件辨識 - 最新 YOLO 原理精讀+實戰$800$632
商品描述
☆★☆★【語音辨識專案應用開發!】★☆★☆
了解語音辨識概要,讓你對WebRTC及Kaldi瞭若指掌!
隨著AI時代的來臨,人類語言的處理在硬體高度平民化之後,你我也可以開發出類似的產品,事實上語音服務早在1950年代就開始研究了。這些應用早就存在於智慧喇叭、手機語音助理、車載智慧座艙、語音輸入法與翻譯機等;企業級應用包括智慧客服、語音品管、智慧教育、智慧醫療等。本書是難得少見的中文語音高階技術的教材,用簡單的Kaldi、WebRTC、gRPC等專案,就可以開發出企業等級的語音服務應用,這些下放至平民百姓家的技術,在搭配本書之後,立即成為你可以立刻上手的工具,充份應用人工智慧時代深度學習技術帶來的福利。
本書看點
✪語音前端處理,語音辨識
✪語者自動分段標記演算法原理
✪基於WebRTC,Kaldi和gRPC,從零建構穩定、高性能、可商用的語音服務
✪前端演算法完整介紹
✪語音活動檢測、語音降噪、回聲消除、波束形成
✪WebRTC和Kaldi最佳化處理流程
✪形成語音演算法SDK
✪微服務建構的RPC遠端呼叫框架和SDK
作者簡介
楊學銳 大疆創新語音交互演算法負責人,復旦大學及Turku大學碩士,長期從事語音演算法、深度學習、人工智慧等領域的研究與商業落地,在相關領域發表多篇論文及專利。
晏超 北京郵電大學碩士,曾任職於HP Labs, Cisco, Technicolor等公司。 現為雲從科技語音演算法負責人,從事語音辨識、聲紋識別、說話人日誌、語音合成等方向的演算法研發工作,構建了雲從科技整套語音演算法引擎與應用服務平臺。
劉雪松 OPPO音訊演算法專家,復旦大學碩士,曾任職於美國國家儀器、聲網、雲從科技等公司。 在信號處理、音訊演算法和語音演算法等領域有豐富的實戰經驗,在相關領域發表多篇論文及專利。
目錄大綱
Chapter 01 語音辨識概述
1.1 語音辨識發展歷程
1.2 語音辨識產業與應用
1.3 常用語音處理工具
Chapter 02 語音訊號基礎
2.1 語音訊號的聲學基礎
2.2 語音訊號的數位化和時頻變換
2.3 本章小結
Chapter 03 語音前端演算法
3.1 語音前端演算法概述
3.2 VAD
3.3 單通道降噪
3.4 回音消除
3.5 麥克風陣列與波束形成
3.6 聲源定位
3.7 其他未盡話題
3.8 本章小結
Chapter 04 語音辨識原理
4.1 特徵提取
4.2 傳統聲學模型
4.3 DNN-HMM
4.4 語言模型
4.5 WFST 解碼器
4.6 序列區分性訓練
4.7 點對點語音辨識
4.8 語音辨識模型評估
4.9 本章小結
Chapter 05 中文漢語模型訓練-- 以multi_cn 為例
5.1 Kaldi 安裝與環境設定
5.2 Kaldi 中的資料格式與資料準備
5.3 語言模型訓練
5.4 發音詞典準備
5.5 特徵提取
5.6 Kaldi 中的Transition 模型
5.7 預對齊模型訓練
5.8 資料增強
5.9 I-Vector 訓練
5.10 神經網路訓練
5.11 解碼圖生成
5.12 本章小結
5.13 附錄
Chapter 06 基於Kaldi 的語者自動分段標記
6.1 語者自動分段標記概述
6.2 聲紋模型訓練-- 以CNCeleb 為例
6.3 本章小結
Chapter 07 基於Kaldi 的語音SDK 實現
7.1 語音特徵提取
7.2 基於WebRTC 的語音活動檢測
7.3 語者自動分段標記模組
7.4 語音辨識解碼
7.5 本章小結
Chapter 08 基於gRPC 的語音辨識服務
8.1 gRPC 語音服務
8.2 ProtoBuf 協定定義
8.3 基於gRPC 的語音服務實現
8.4 本章小結
Appendix A 參考文獻















