多模態深度學習技術基礎
馮方向、王小捷
- 出版商: 清華大學
- 出版日期: 2023-09-01
- 定價: $594
- 售價: 7.9 折 $469
- 語言: 簡體中文
- 頁數: 241
- ISBN: 7302637474
- ISBN-13: 9787302637479
-
相關分類:
DeepLearning
-
相關翻譯:
GPT5 新時代 - 多模態深度學習精實操練 (繁中版)
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
Deep Learning (Hardcover)$1,650$1,617 -
深度學習|生命科學應用 (Deep Learning for the Life Sciences)$580$458 -
$559自然語言處理:基於預訓練模型的方法 -
深度學習: 邁向 Meta Learning$880$399 -
$458BERT 基礎教程:Transformer 大模型實戰 -
$469精通 Transformer : 從零開始構建最先進的 NLP 模型 -
擴散模型從原理到實戰$479$455 -
$359AIGC 自動化編程:基於 ChatGPT 和 GitHub Copilot -
$602預測模型實戰:基於R、SPSS和Stata -
$422從零開始大模型開發與微調:基於 PyTorch 與 ChatGLM -
$486ChatGPT 實應用大全 (全影片·彩色版) -
$314ChatGPT 寫作超簡單 -
自然語言處理與醫療文本的知識抽取$539$512 -
$510多模態大模型:技術原理與實戰 -
$449基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理 -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748 -
$374Llama 大模型實踐指南 -
$422LangChain 實戰:從原型到生產,動手打造 LLM 應用 -
$360LangChain 簡明講義:從0到1建構 LLM 應用程式 -
LLM 的瑞士刀 - 用 LangChain 極速開發可擴充大型應用程式$880$695 -
新世代 AI 範式 - 多模態+大模型實作精解$800$632 -
多模態大模型:算法、應用與微調$714$678 -
多模態人工智能:大模型核心原理與關鍵技術$600$570 -
生成式 AI 實戰基於 Transformer、Stable Diffusion、LangChain 和 AI Agent$479$455 -
$607ROS 2 智能機器人開發實踐
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
內容上,本書力求系統地介紹基於深度學習的圖文多模態信息處理技術,側重介紹最通用、最基礎的技術,覆蓋了多模態表示、對齊、融合和轉換等四大關鍵技術。同時也介紹了多模態信息處理領域的**發展前沿——多模態預訓練模型。此外,為了讓讀者可以實踐這些多模態深度學習技術,本書提供了四個完整的實戰案例,分別對應多模態表示、對齊、融合和轉換這四個關鍵技術。 具體而言,本書的內容分為四個部分:初識多模態信息處理、單模態表示、多模態信息處理的關鍵技術、多模態預訓練模型。 第一部分包括兩個章節:第1章介紹多模態信息的基本概念、難點、使用深度學習方法的動機、多模態信息處理的關鍵技術以及這些技術的發展歷史,第2章介紹若乾同時涉及圖像和文本的多模態熱門研究任務。 第二部分包括兩個章節:第3和4章分別介紹了多模態信息處理中常用的文本表示和圖像表示方法。 第三部分包括四個章節:第5、6、7、8章分別介紹面向特定任務的多模態表示、對齊、融合和轉換這四個關鍵技術,且每一章都提供了一個可運行的完整的實戰案例。 第四部分包括一個章節:第9章介紹綜合使用上述關鍵技術,並以學習通用多模態表示為目標的多模態預訓練模型。
目錄大綱
目 錄
第1章 緒論 1
1.1 多模態信息處理的概念 1
1.2 多模態信息處理的難點 2
1.3 使用深度學習技術的動機 3
1.4 多模態信息處理的基礎技術 4
1.4.1 表示技術 4
1.4.2 對齊技術 4
1.4.3 融合技術 5
1.4.4 轉換技術 5
1.5 多模態深度學習技術的發展歷史 5
1.6 小結 8
1.7 習題 9
第2章 多模態任務 10
2.1 圖文跨模態檢索 10
2.1.1 數據集 11
2.1.2 評測指標 12
2.2 圖像描述 13
2.2.1 數據集 14
2.2.2 評測指標 14
2.3 視覺問答 19
2.3.1 數據集 20
2.3.2 評測指標 23
2.4 文本生成圖像 23
2.4.1 數據集 24
2.4.2 評測指標 25
2.5 指稱表達 27
2.5.1 數據集 29
2.5.2 評測指標 30
2.6 小結 31
2.7 習題 31
第3章 文本表示 32
3.1 基於詞嵌入的靜態詞表示 33
3.1.1 Word2vec 33
3.1.2 GloVe 35
3.2 基於循環神經網絡的動態詞表示 36
3.2.1 循環神經網絡基礎 36
3.2.2 現代循環神經網絡 37
3.2.3 動態詞表示和整體表示 40
3.3 基於註意力的預訓練語言模型表示 42
3.3.1 自註意力 43
3.3.2 transformer編碼器 46
3.3.3 BERT 47
3.3.4 BERT詞表示和整體表示 49
3.4 小結 50
3.5 習題 50
第4章 圖像表示 51
4.1 基於捲積神經網絡的整體表示和網格表示 53
4.1.1 捲積神經網絡基礎 53
4.1.2 現代捲積神經網絡 54
4.1.3 整體表示和網格表示 55
4.2 基於目標檢測模型的區域表示 57
4.2.1 基於深度學習的目標檢測基礎 57
4.2.2 區域表示 58
4.3 基於視覺transformer的整體表示和塊表示 59
4.3.1 使用自註意力代替捲積 59
4.3.2 視覺transformer 60
4.3.3 整體表示和塊表示 61
4.4 基於自編碼器的壓縮表示 62
4.4.1 量化自編碼器:VQ-VAE 62
4.4.2 量化生成對抗網絡:VQGAN 64
4.4.3 變分生成對抗網絡:KLGAN 67
4.4.4 壓縮表示 67
4.5 小結 68
4.6 習題 68
第5章 多模態表示 69
5.1 共享表示 71
5.1.1 多模態深度自編碼器 72
5.1.2 多模態深度生成模型 73
5.2 對應表示 79
5.2.1 基於重構損失的方法 80
5.2.2 基於排序損失的方法 81
5.2.3 基於對抗損失的方法 84
5.3 實戰案例:基於對應表示的跨模態檢索 85
5.3.1 跨模態檢索技術簡介 85
5.3.2 模型訓練流程 86
5.3.3 讀取數據 87
5.3.4 定義模型 95
5.3.5 定義損失函數 99
5.3.6 選擇優化方法 100
5.3.7 評估指標 101
5.3.8 訓練模型 103
5.4 小結 107
5.5 習題 107
第6章 多模態對齊 109
6.1 基於註意力的方法 110
6.1.1 交叉註意力 110
6.1.2 基於交叉註意力的圖文對齊和相關性計算 112
6.2 基於圖神經網絡的方法 115
6.2.1 圖神經網絡基礎 115
6.2.2 單模態表示提取 120
6.2.3 單模態圖表示學習 120
6.2.4 多模態圖對齊 122
6.3 實戰案例:基於交叉註意力的跨模態檢索 123
6.3.1 讀取數據 123
6.3.2 定義模型 129
6.3.3 定義損失函數 131
6.3.4 選擇優化方法 137
6.3.5 評估指標 137
6.3.6 訓練模型 140
6.4 小結 143
6.5 習題 144
第7章 多模態融合 145
7.1 基於雙線性融合的方法 146
7.1.1 多模態低秩雙線性池化 147
7.1.2 多模態因子雙線性池化 148
7.1.3 多模態Tucker融合 149
7.2 基於註意力的方法 150
7.2.1 基於交叉註意力的基礎方法 150
7.2.2 基於多步交叉註意力的方法 151
7.2.3 基於交叉transformer編碼器的方法 152
7.3 實戰案例:基於MFB的視覺問答 153
7.3.1 視覺問答技術簡介 153
7.3.2 讀取數據 154
7.3.3 定義模型 165
7.3.4 定義損失函數 170
7.3.5 選擇優化方法 170
7.3.6 選擇評估指標 171
7.3.7 訓練模型 171
7.4 小結 175
7.5 習題 175
第8章 多模態轉換 177
8.1 基於編解碼框架的方法 178
8.1.1 基於循環神經網絡的編解碼模型 179
8.1.2 基於註意力的編解碼模型 181
8.1.3 基於transformer的編解碼模型 183
8.2 基於生成對抗網絡的方法 185
8.2.1 基於條件生成對抗網絡的基本方法 185
8.2.2 基於多階段生成網絡的方法 187
8.2.3 基於註意力生成網絡的方法 191
8.3 實戰案例:基於註意力的圖像描述 193
8.3.1 圖像描述技術簡介 193
8.3.2 讀取數據 194
8.3.3 定義模型 195
8.3.4 定義損失函數 203
8.3.5 選擇優化方法 204
8.3.6 選擇評估指標 204
8.3.7 訓練模型 206
8.4 小結 209
8.5 習題 210
第9章 多模態預訓練 211
9.1 總體框架 211
9.2 預訓練數據集 212
9.3 模型結構 213
9.3.1 基於編碼器的模型 214
9.3.2 基於編解碼框架的模型 215
9.4 預訓練任務 216
9.4.1 掩碼語言模型 216
9.4.2 掩碼視覺模型 216
9.4.3 圖像文本匹配 217
9.4.4 跨模態對比學習 217
9.5 下遊任務 217
9.5.1 視覺常識推理 217
9.5.2 視覺語言推理 218
9.5.3 視覺蘊含 218
9.6 典型模型 218
9.6.1 基於融合編碼器的雙流模型:LXMERT 218
9.6.2 基於融合編碼器的單流模型:ViLT 220
9.6.3 基於雙編碼器的模型:CLIP 222
9.6.4 基於編解碼框架的模型:OFA 223
9.7 小結 226
9.8 習題 226
參考文獻 227



