AI智能語音技術與產業創新實踐

李蓀 曾然然 殷治綱

  • AI智能語音技術與產業創新實踐-preview-1
  • AI智能語音技術與產業創新實踐-preview-2
AI智能語音技術與產業創新實踐-preview-1

買這商品的人也買了...

商品描述

本書從技術、應用和產業3個維度為切入點,對智能語音語義領域相關的熱點和趨勢展開研究。本書以“人與機器的對話”開篇,講述人類語音生成、傳播和感知的過程,引發對於機器智能語音聽說的思考,進而闡述技術探索發展史;然後,分析了以語音交互為核心的技術現狀,綜合剖析提出全雙工、端到端模型構建、語音假冒攻擊等熱點;其次,從政策、投融資和產業規模上,分析整體智能語音產業環境,縱觀國內外企業在相關技術和產品上的積極佈局,介紹了智能語音的產業鏈和產業格局;最後,圍繞語音交互技術形成的應用,以智能汽車、智能家居、可穿戴設備、智能客服、醫療、教育等諸多細分領域為代表,提出“AI+基礎服務”“AI+硬件設備”“AI+垂直行業”的3種應用轉化參考模式,並列舉實際具體案例和解決方案。

本書適合從事人工智能技術研發、產品應用、市場規劃的工程技術人員和管理人員參考使用,也可作為高等院校人工智能相關的專業師生參考。同時,也適合對人工智能語音技術感興趣的相關人員閱讀。

作者簡介

李蓀
研究方向包括智能語音技術、AI數據集構建、語音交互產品服務等,參與國家工信部、網信辦等部委課題專項《人工智能、基礎軟件聯盟和平台建設》、《深度融合發展的戰略路徑研究》等,主持和參與研究課題《全球人工智能關鍵技術應用及產業化趨勢分析》、《智能語音技術產業熱點和發展趨勢》等,發表核心、EI期刊雜誌論文3篇,牽頭起草語音合成、語音識別、聲紋識別、口語評測、語音採集等智能語音技術服務的多項國際和行業標準。


殷治綱
先後在各類期刊、會議、報紙發表論文三十餘篇,參與大型語言數據庫項目二十餘項,參加編寫國家技術質量監督局《漢語語音庫與標註通用規範》和《中國大百科全書·語言學卷》等,主持和參與國家社會科學基金、中國哲學社會科學創新工程、國家863計劃、國家973計劃、國家自然科學基金、國家十五課題、社科院重點學科、美國國家科學基金NSF、歐盟TC-STAR項目等國家和國際科研項目,並參加與諾基亞、摩托羅拉、科大訊飛等國際語音公司聯合研究課題。研究興趣包括實驗語音學、語料庫語言學、自然語言處理、語言類型學、法律語言學、話語分析、語言戰略等內容。


曾然然
2006年畢業於北京郵電大學,之後在Intel(中國)有限公司從事Intel通信芯片在中國區的業務發展。現在中國電信研究院從事人工智能,智能語音研發工作,在聲紋識別、多輪對話、語義分析和處理、AI技術商業部署等領域有豐富的技術研究和產品研發經驗。 2019年入選百度黃埔學院人工智能首席AI架構師,2019年1月受聘為北京工業大學計算機學院人工智能方向碩士研究生導師(兼職)。

目錄大綱

第 1章 從人際交流到人機對話 001
1.1 語言“塑造”了人類 002
1.1.1 語言在人類進化過程中的作用 003
1.1.2 語言的功能 004
1.2 語言與語言科學 005
1.2.1 人類語言概況 005
1.2.2 和語言有關的科學與技術 007
1.3 語音的產生與感知 008
1.3.1 語音交互與言語鏈 008
1.3.2 語音的聲學基礎 009
1.3.3 語音產生的生理基礎 015
1.4 人與機器的對話 021
1.4.1 人類語言交際的轉向 021
1.4.2 語音的數字化表達 022

第 2章 智能語音基本技術 027
2.1 主流的語音交互技術 028
2.1.1 語音識別 029
2.1.2 聲紋識別 048
2.1.3 語音合成 060
2.1.4 自然語言處理 070
2.1.5 對話管理 082
2.1.6 角色分離 086
2.1.7 語音增強 091
2.2 深度學習成為加速器:新技術到“黑科技” 106
2.2.1 端到端技術 106
2.2.2 預訓練機制 110
2.2.3 模型壓縮和輕量化部署 117

第3章 智能語音產業發展 125
3.1 產業環境 126
3.1.1 產業發展歷程 126
3.1.2 重點政策解析 127
3.1.3 發展規劃佈局 132
3.1.4 創新合作模式 133
3.2 市場及生態 134
3.2.1 行業市場價值逐漸釋放 134
3.2.2 生態格局呈現多元化 137
3.2.3 企業成長方面的一些思考 146
3.3 標準及規範 148
3.3.1 技術評估指標介紹 148
3.3.2 國內外標準制定現狀 153
3.3.3 標準需求及發展趨勢 160
3.4 產業應用創新實踐 161
3.4.1 “AI語音+終端”:消費級市場潛力顯現,疫情催發新業態 162
3.4.2 “AI語音+服務”:智能語音深度賦能平台服務 171
3.4.3 “AI語音+場景”:突破價值釋放“最後一公里” 180

第4章 AI語音與熱點話題和技術:千絲萬縷的聯繫 207
4.1 語音+大數據+雲 208
4.1.1 我們身邊的大數據 208
4.1.2 語音的特殊身份 209
4.1.3 數據類型與存儲 210
4.1.4 語音結構化 213
4.2 語音+安全 220
4.2.1 語音欺詐,又一個潘多拉盒子 220
4.2.2 知己知彼:了解和研究語音欺詐、攻擊手段 221
4.2.3 降維打擊 :抗攻擊防欺詐的一張盾牌 225
4.2.4 國內政策法規的保護臂膀 227
4.2.5 個人語音數據全生命週期的安全建議 228
4.3 語音+普惠服務 229
4.3.1 新技術的應用要做到普惠 229
4.3.2 智能語音技術可以提供什麼樣的普惠服務 230
4.3.3 科技和人類的和諧共生 235
4.4 語音+多模態交互 235
4.4.1 語音交互新挑戰和探索 235
4.4.2 多模態交互成為趨勢 236
4.4.3 語音助手向智慧助手發展 237

結束語 239
參考文獻 245