GPT5 新時代 - 多模態深度學習精實操練
馮方向、王小捷 著
- 出版商: 深智
- 出版日期: 2024-04-19
- 定價: $680
- 售價: 7.9 折 $537
- 語言: 繁體中文
- 頁數: 296
- ISBN: 6267383520
- ISBN-13: 9786267383520
-
相關分類:
DeepLearning
- 此書翻譯自: 多模態深度學習技術基礎
立即出貨 (庫存 > 10)
買這商品的人也買了...
-
實況直播:用 Docker 建構大型資料中心$880$695 -
Keras 大神歸位:深度學習全面進化!用 Python 實作 CNN、RNN、GRU、LSTM、GAN、VAE、Transformer$1,200$948 -
一本精通 - OpenCV 與 AI 影像辨識$680$537 -
GPT4 會你也會 - 共融機器人的多模態互動式情感分析$700$553 -
Python 大數據專案 X 工程 X 產品 資料工程師的升級攻略, 2/e$780$616 -
網頁視覺特效最強必殺技大全:用 Three.js 與 Shader 圖說核心原理 x 閃避踩雷 x 創作指南(iThome鐵人賽系列書)【軟精裝】(書況有些許瑕疵,不介意在下單)$800$624 -
萬顆 GPU 的訓練 - 分散式機器學習 — 系統工程與實戰$1,280$1,011 -
$505LangChain 入門指南:構建高可復用、可擴展的 LLM 應用程序 -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748 -
$352AI Agent:AI 的下一個風口 -
$607大語言模型:原理與工程實踐 -
新範式來臨 - 用 PyTorch 了解 LLM 開發微調 ChatGLM 全過程$980$774 -
AI 神助攻!程式設計新境界 – GitHub Copilot 開發 Python 如虎添翼 : 提示工程、問題分解、測試案例、除錯$560$442 -
新一代 Keras 3.x 重磅回歸:跨 TensorFlow 與 PyTorch 建構 Transformer、CNN、RNN、LSTM 深度學習模型$750$593 -
極速 ChatGPT 開發者兵器指南:跨界整合 Prompt Flow、LangChain 與 Semantic Kernel 框架$680$530 -
AI 工具使用手冊:學會 AI 魔法讓你變身超人不再當麻瓜$690$545 -
新世代 AI 範式 - 多模態+大模型實作精解$800$632 -
LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具$680$537 -
NLG 的王者 GPT 圖解 - LLM 的原來是這樣建構出來的$780$616 -
LLM 大型語言模型的絕世祕笈:27路獨步劍法,帶你闖蕩生成式 AI 的五湖四海 (iThome鐵人賽系列書)$650$507 -
LLM 串接所有服務 - LangChain 原型到產品全面開發$680$537 -
新世代關聯 -- 圖資料庫理論精解 + 開發實務$980$774 -
全面掌握生成式 AI 與 LLM 開發實務:NLP × PyTorch × GPT 輕鬆打造專屬的大型語言模型(iThome鐵人賽系列書)$620$484 -
邊緣 AI-使用 NVIDIA Jetson Orin Nano 開發具備深度學習、電腦視覺與生成式 AI 功能的 ROS2 機器人$580$458 -
跟 NVIDIA 學 LLM 基礎!GPT、Transformer、attention、self-attention 機制、seq2seq 架構,紮穩大型語言模型的深度學習建模技術 (《跟 NVIDIA 學深度學習》修訂版)$880$695
商品描述
本書包括四大部分,第一部分包括第1、2章,第1章介紹多模態資訊的基本概念、難點、使用深度學習方法的動機、多模態資訊處理的基礎技術,以及這些技術的發展歷史,第2章介紹主流多模態研究任務。第二部分包括第3、4章,分別介紹多模態深度學習模型中常用的文本表示和圖像表示技術。第三部分包括第 5∼8 章,分別介紹針對特定任務,以深度學習為基礎的多模態表示、對齊、融合和轉換這 4 種技術,且每章都提供了一個可運行的、完整的實戰案例。第四部分即第9章,介紹綜合使用上述基礎技術,並以學習通用多模態表示或同時完成多個多模態任務為目標的多模態預訓練技術,在現今AI技術範式轉換的時代,將會是你精通人工智慧的重要參考資料。
作者簡介
馮方向
北京郵電大學人工智慧學院助理教授。主要研究方向為多模態計算,主持和參與多項國家級科研專案。發表學術論文30餘篇,曾獲ACM Multimedia最佳論文提名,單篇引用超過500次,2022~2023年連續入選Aminer人工智慧全球最具影響力學者提名。主講大學課程「神經網絡與深度學習」、「多模態資訊處理」,主持和參與多項教學專案。
王小捷
北京郵電大學人工智慧學院教授,智慧科學研究中心主任,中國人工智慧學會自然語言理解專委會主任,中國教育部人工智慧領域教學資源及新型教材建設專家組成員,自然語言處理領域首席專家。主要研究方向為自然語言處理與多模態計算,已發表學術論文300餘篇。
目錄大綱
第 1 章 緒論
1.1 多模態資訊處理的概念
1.2 多模態資訊處理的困難
1.3 使用深度學習技術的動機
1.4 多模態資訊處理的基礎技術
1.5 多模態深度學習技術的發展歷史
1.6 小結
1.7 習題
第 2 章 多模態任務
2.1 圖文跨模態檢索
2.2 影像描述
2.3 視覺問答
2.4 文字生成影像
2.5 指代表達
2.6 小結
2.7 習題
第 3 章 文字表示
3.1 基於詞嵌入的靜態詞表示
3.2 基於循環神經網路的動態詞表示
3.3 基於注意力的預訓練語言模型表示
3.4 小結
3.5 習題
第 4 章 影像表示
4.1 基於卷積神經網路的整體表示和網格表示
4.2 基於物件辨識模型的區域表示
4.3 基於視覺 transformer 的整體表示和區塊表示
4.4 基於自編碼器的壓縮表示
4.5 小結
4.6 習題
第 5 章 多模態表示
5.1 共用表示
5.2 對應表示
5.3 實戰案例:基於對應表示的跨模態檢索
5.4 小結
5.5 習題
第 6 章 多模態對齊
6.1 基於注意力的方法
6.2 基於圖神經網路的方法
6.3 實戰案例:基於交叉注意力的跨模態檢索
6.4 小結
6.5 習題
第 7 章 多模態融合
7.1 基於雙線性融合的方法
7.2 基於注意力的方法
7.3 實戰案例:基於 MFB 的視覺問答
7.4 小結
7.5 習題
第 8 章 多模態轉換
8.1 基於編解碼框架的方法
8.2 基於生成對抗網路的方法
8.3 實戰案例:基於注意力的影像描述
8.4 小結
8.5 習題
第 9 章 多模態預訓練
9.1 整體框架
9.2 預訓練資料集
9.3 模型結構
9.4 預訓練任務
9.5 下游任務
9.6 典型模型
9.7 小結
9.8 習題
參考文獻

















