內容理解:技術、演算法與實踐
孫子荀等
- 出版商: 機械工業
- 出版日期: 2023-10-01
- 定價: $594
- 售價: 7.9 折 $469
- 語言: 簡體中文
- 頁數: 282
- 裝訂: 平裝
- ISBN: 7111735137
- ISBN-13: 9787111735137
-
相關分類:
Large language model
立即出貨
買這商品的人也買了...
-
Fundamentals of Power Electronics, 2/e (Hardcover)$1,250$1,225 -
$419自己動手寫編譯器、鏈接器 -
深入理解計算機系統, 3/e (Computer Systems: A Programmer's Perspective, 3/e)$834$792 -
趣學演算法|50種必學演算法的完美圖解與應用實作$580$458 -
$232算法詳解 捲2 圖算法和數據結構 -
$301Python 自然語言處理實戰 (Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications) -
算法通關之路$594$564 -
AutoML 自動化機器學習:用 AutoKeras 超輕鬆打造高效能 AI 模型 (Automated Machine Learning with AutoKeras: Deep learning made accessible for everyone with just few lines of coding)$690$545 -
集成式學習:Python 實踐!整合全部技術,打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)$750$638 -
演算法戰鬥營:爆量題庫新手燒腦篇$880$695 -
演算法洞見:遞推與遞迴$600$396 -
演算法生存指南$800$632 -
圖說演算法 : 使用 C語言, 3/e$560$437 -
$280自然語言處理 — 原理、方法與應用 -
$426自然語言處理之 BERT 模型算法、架構和案例實戰 -
$505深度序列模型與自然語言處理:基於 TensorFlow 2 實踐 -
$356算法詳解 捲3 貪心算法和動態規劃 -
$455算法詳解(捲4)——NP-Hard問題算法 -
CPU 眼裡的 C/C++$534$507 -
$556大規模語言模型:從理論到實踐 -
$454RISC-V 開放架構設計之道 -
$602因果推斷與機器學習 (修訂版) -
科技巨頭的演算法大揭祕:資料科學家必讀的資料科學與機器學習實戰筆記(iThome鐵人賽系列書)【軟精裝】$680$530 -
$449基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理 -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
這是一本在AI大模型技術背景下深入講解內容理解的技術原理、演算法實現與業務實踐的著作,
由騰訊的高級總監和資深內容專家領銜撰寫,全面融入了工業界在內容業務方面積累的先進技術和成熟經驗。
全書圍繞著內容理解、內容生成、內容品質3大關鍵領域展開,
從內容產業的發展趨勢與挑戰到各種技術和演算法,從產業的先進的研究成果到各種典型的應用案例,應有盡有。
第一部分內容理解(第1~7章)
首先,詳細介紹了內容理解的各個模組,包括文字、圖像、
語音等單模態內容的理解以及多場景文字、影片等多模態內容的理解,幫助讀者全面瞭解內容理解的核心概念、技術細節和研究進展。
接著,講解了多模態學習在內容理解中的應用、多模態內容理解的理論架構和大規模預訓練技術。
最後,介紹了兩個主流的內容理解框架,並結合一個自研的多模態內容理解框架,闡述瞭解決內容理解問題的流程和具體方案。
第二部分內容生成(第8~11章)
詳細講解了內容生成的技術細節,結合作者團隊在業務實踐中探索的應用案例,從圖片生成、文本生成、AI素材合成到AI創作,
介紹了內容創作的全端技術,能幫助讀者由淺入深地理解內容生成的技術原理與業務實務。
第三部分內容品質(第12~14章)
詳細解說了資訊流產品常見的內容品質問題,例如標題黨、假新聞、
低俗圖片等,介紹如何將這些與內容品質相關的業務場景進行拆解和定義,將抽象的業務場景轉化為可以建模的問題。
此外,也介紹了作者團隊採用的業務建模流程以及業界常用的解決方案和研究進展。
作者簡介
孫子荀,內容理解與生成領域的資深專家,騰訊高級總監和專家研究員,負責騰訊遊戲用戶增長與內容生態技術相關的工作。2012年加入騰訊,十多年來一直從事內容理解、內容生成以及數據科學技術的研究和落地工作,帶領團隊獲得十幾項公司級業務獎和技術獎。在內容生態增長、創意營銷等領域有豐富的落地經驗。帶領團隊從0到1構建了首個內容技術中臺;打造了騰訊遊戲全域營銷科學體系,幫助多個業務實現降本增效。與團隊一起在人工智能頂級學術會議上發表了多篇論文和報告,在相關領域擁有幾十項發明專利。
目錄大綱
Contents 目 錄
作者簡介
前 言
第一部分 內容理解
第1章 文本內容理解2
1.1 文本表示2
1.1.1 文本表示的研究背景2
1.1.2 文本表示的方法3
1.2 文本分類9
1.2.1 文本分類的研究背景9
1.2.2 文本分類的方法9
1.3 本章小結17
第2章 圖像理解19
2.1 影像分類20
2.1.1 傳統影像分類演算法20
2.1.2 深度學習影像分類演算法23
2.2 影像檢測25
2.2.1 影像匹配演算法26
2.2.2 基於OpenCV的模板匹配實作27
2.2.3 目標偵測演算法28
2.3 實際應用:通用元素檢測框架30
2.4 本章小結31
第3章 語音理解32
3.1 語音表徵32
3.1.1 基於傳統方法的語音表徵33
3.1.2 基於深度學習的語音表徵34
3.2 基於深度學習的音樂分類34
3.2.1 基於CNN的音樂分類35
3.2.2 基於RNN的音樂分類38
3.2.3 基於領域知識的CNN38
3.2.4 基於註意力機制的後端模組
演算法41
3.3 本章小結43
第4章 場景文字偵測與辨識44
4.1 場景文字的研究方向44
4.1.1 研究問題44
4.1.2 研究困難45
4.1.3 未來趨勢45
4.2 場景文本演算法的現況46
4.2.1 基於傳統機器學習的文本檢測46
4.2.2 基於傳統機器學習的文本辨識46
4.2.3 基於深度學習的文本檢測47
4.2.4 基於深度學習的文本辨識52
4.2.5 基於深度學習的端對端系統53
4.3 場景文字演算法輔助技術55
4.3.1 不規則文本辨識問題55
4.3.2 文字影像合成技術56
4.3.3 半監督技術57
4.4 資料集與評估標準58
4.4.1 基準資料集58
4.4.2 文本檢測評估標準60
4.4.3 文本辨識評估標準61
4.5 文本檢測與辨識的應用、現狀
與未來61
4.5.1 應用61
4.5.2 現狀62
4.5.3 挑戰與未來趨勢62
4.6 本章小結64
第5章 影片理解65
5.1 視訊表徵66
5.1.1 研究目標與意義66
5.1.2 研究進展67
5.2 影片動作辨識71
5.2.1 研究目標與意義71
5.2.2 研究困難71
5.2.3 研究進展71
5.3 影片時序動作定位74
5.3.1 研究目標與意義74
5.3.2 研究困難74
5.3.3 研究進展75
5.4 視訊結構化分析79
5.4.1 研究目標與意義80
5.4.2 研究難點80
5.4.3 基於視訊結構化的資料集80
5.4.4 視頻結構的劃分方法81
5.4.5 研究進展84
5.5 本章小結89
第6章 多模態學習與內容理解91
6.1 多模態內容理解的研究方向91
6.1.1 研究問題91
6.1.2 研究意義與挑戰92
6.1.3 研究方向與應用93
6.2 多模態表徵94
6.2.1 因果表徵94
6.2.2 聯合表徵98
6.3 多模態內容理解架構99
6.3.1 模態間推理99
6.3.2 模態間協同101
6.3.3 模態間推理:零樣本影像
分類103
6.3.4 模態間協同:假新聞識別105
6.4 大規模預訓練技術108
6.4.1 文本預訓練108
6.4.2 影像預訓練110
6.4.3 音頻預訓練111
6.4.4 多模態預訓練112
6.5 本章小結114
第7章 內容理解架構115
7.1 常見的內容理解架構115
7.1.1 Tensor2Tensor115
7.1.2 OmniNet 120
7.2 自研多模態內容理解架構121
7.2.1 框架設計背景121
7.2.2 contentAI框架介紹125
7.2.3 高度配置化125
7.2.4 高度組件化127
7.2.5 開發者模式與使用者模式130
7.2.6 計算式網絡搭建131
7.2.7 計算圖網絡搭建 132
7.2.8 自動化資料集建構 133
7.2.9 能力優化133
7.2.10 快速服務化134
7.2.11 內容理解能力135
7.2.12 程式碼編寫範例136
7.3 本章小結141
第二部分 內容生成
第8章 圖片生成144
8.1 基於GAN的圖片生成144
8.1.1 生成對抗網絡144
8.1.2 條件圖片生成146
8.1.3 文字轉圖片147
8.1.4 圖片遷移147
8.1.5 高分辨率圖片生成149
8.2 基於擴散模型的圖片生成151
8.2.1 擴散模型152
8.2.2 擴散模型生成圖153
8.3 圖片設計155
8.3.1 智能裁切155
8.3.2 智慧佈局156
8.4 本章小結157
第9章 文本生成158
9.1 文本生成的背景知識158
9.1.1 語言模型158
9.1.2 CFG文法159
9.1.3 Encoder-Decoder框架160
9.1.4 文本生成品質量化 161
9.2 文本生成演算法162
9.2.1 基於統計的文本生成模型162
9.2.2 基於神經網絡的文本生成技術164
9.3 本章小結172
第10章 AI素材合成173
10.1 AI人臉屬性編輯173
10.1.1 研究目標與意義173
10.1.2 研究困難175
10.1.3 研究進展176
10.2 AI語音合成181
10.2.1 研究目標與意義181
10.2.2 基本的語音合成系統簡介182
10.2.3 端對端的語音合成系統183
10.2.4 基於深度學習的演算法介紹185
10.3 AI虛擬人技術195
10.3.1 研究目標與意義195
10.3.2 二維多目標人體姿態估計197
10.3.3 二維-三維人體姿態轉換203
10.4 AI表情包合成205
10.4.1 表情包特性206
10.4.2 表情包自動合成的意義及
挑戰207
10.4.3 表情包合成演算法208
10.4.4 表情包合成應用212
10.5 本章小結213
第11章 影片編輯214
11.1 結構化資料影片編輯215
11.1.1 基於模板的電視報道影片編輯215
11.1.2 基於剪輯元素屬性約束的
影片編輯216
11.1.3 視訊特效合成系統實務217
11.2 文字驅動影片編輯222
11.2.1 基於主題文本編輯的視頻
蒙太奇222
11.2.2 基於解說文本的旅遊視頻
編輯224
11.3 音樂驅動影片編輯225
11.3.1 音樂驅動影片蒙太奇225
11.3.2 根據音樂生成視覺節奏227
11.3.3 基於音樂合成視覺敘事
鏡頭230
11.4 本章小結232
第三部分 內容質量
第12章 標題黨234
12.1 模型建構235
12.1.1 業務定義235
12.1.2 基於標題建模236
12.1.3 基於文章整體內容建模 238
12.2 標題黨研究方向241
12.2.1 資料方面的研究241
12.2.2 特徵構造方面的研究241
12.2.3 模型方面的研究241
12.3 資料集242
12.4 相關論文介紹243
12.4.1 特徵構造243
12.4.2 深度學習245
12.5 本章小結247
第13章 假新聞248
13.1 基本方法248
13.1.1 基於內容真實性248
13.1.2 基於內容風格249
13.1.3 基於傳播模式251
13.1.4 基於傳播源特徵253
13.2 未來研究方向253
13.3 資料集254
13.4 相關論文介紹254
13.5 本章小結271
第14章 圖文低俗辨識272
14.1 研究背景與問題定義272
14.1.1 研究背景272
14.1.2 問題定義273
14.2 業界常用產品274
14.3 主要技術手段275
14.3.1 關鍵字275
14.3.2 模型276
14.3.3 匹配277
14.3.4 舉報279
14.3.5 使用者行為279
14.3.6 多模態279
14.4 業務案例279
14.5 本章小結282
