大規模圖神經網絡:並行和分布式技術

邵鎣俠 崔斌

  • 出版商: 機械工業
  • 出版日期: 2025-11-01
  • 售價: $534
  • 語言: 簡體中文
  • 頁數: 210
  • ISBN: 7111788524
  • ISBN-13: 9787111788522
  • 相關分類: Machine Learning
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書系統介紹並行與分布式圖神經網絡的核心技術和實踐方法,內容全面、結構清晰,既涵蓋理論基礎,又包含系統實現與編程案例,具有很高學術價值和工程指導意義。全書共 9 章。第 1 章介紹圖神經網絡的背景、發展歷史和現狀,並探索大規模圖神經網絡的緣由;第 2 章介紹圖神經網絡模型的基礎知識及其應用;第 3 章介紹分布式並行機器學習的流程、訓練模式、訓練架構、物理架構等基礎知識;第 4 章從整體上介紹分布式並行圖神經網絡訓練的流程和方法;第 5 章和第 6 章分別介紹大規模圖神經網絡的小批次分布式並行訓練和全圖分布式並行訓練方法及其優化技術;第 7 章介紹經典的大規模圖神經網絡系統;第 8 章介紹大規模圖神經網絡編程實踐案例;第 9 章探討大規模圖神經網絡技術的未來發展方向。

作者簡介

邵鎣俠,北京郵電大學計算機學院教授, 高層次青年人才,博士生導師。研究方向為圖數據管理、大規模圖計算、AI4Sys等。主持3項 自然科學基金項目、1項科技創新2030“新一代人工智能”重大項目子課題以及多項CCF/CAAI產學研合作基金。在數據庫和人工智能領域的 會議和期刊已發表高質量學術論文70余篇,其中 作者/通訊作者發表CCF-A類期刊和會議論文20余篇,出版英文學術專著1部;入選北京市科技新星,獲北京市高等教育教學成果獎二等獎、ACM SIGMOD中國新星獎、數據庫領域 會議VLDB 2022 常規研究論文獎、數據庫領域重要 會議DASFAA 2020 學生論文獎等。指導學生獲全國大學生計算機系統能力大賽-(首屆)數據庫管理系統設計賽一等獎、第四屆實時計算Flink挑戰賽亞軍;長期擔任多個重要 會議的程序委員和 期刊的審稿人。

目錄大綱

前言
第1章 引言
1.1 圖神經網絡
1.1.1 什麼是圖神經網絡
1.1.2 圖神經網絡的發展歷史
1.1.3 圖神經網絡的現狀
1.2 大規模圖神經網絡
1.2.1 大規模圖神經網絡的緣由
1.2.2 大規模圖神經網絡與分布式訓練
1.2.3 分布式圖神經網絡的困難與挑戰
1.3 本書組織
參考文獻
第2章 圖神經網絡模型
2.1 圖的表示
2.2 圖神經網絡的表示
2.3 典型的圖神經網絡模型
2.3.1 門控圖序列神經網絡
2.3.2 圖卷積神經網絡
2.3.3 圖註意力網絡
2.3.4 生成式圖神經網絡模型
2.4 圖神經網絡的應用
2.4.1 社交網絡
2.4.2 生物與醫療
2.4.3 金融與風控
2.4.4 物理領域
2.4.5 交通領域
2.4.6 推薦系統
2.5 小結
參考文獻
第3章 分布式並行機器學習
3.1 機器學習的基礎知識
3.1.1 基本概念
3.1.2 模型訓練
3.1.3 反向傳播算法
3.1.4 梯度下降算法
3.2 分布式並行機器學習的流程
3.3 分布式並行機器學習的訓練模式
3.3.1 數據並行
3.3.2 模型並行
3.3.3 流水並行
3.3.4 張量並行
3.3.5 混合專家並行
3.3.6 完全分片的數據並行
3.4 分布式並行機器學習的訓練架構
3.4.1 分布式訓練架構
3.4.2 模型更新策略
3.5 分布式並行機器學習的物理架構
3.5.1 單機多卡分布式並行訓練環境
3.5.2 多機集群分布式並行訓練環境
3.6 小結
參考文獻
第4章 分布式並行圖神經網絡訓練
4.1 圖神經網絡訓練的基本流程
4.1.1 全圖訓練
4.1.2 小批次訓練
4.2 圖神經網絡與深度神經網絡的比較
4.3 分布式並行圖神經網絡訓練
4.3.1 小批次分布式並行圖神經網絡訓練
4.3.2 全圖分布式並行圖神經網絡訓練
4.4 小結
參考文獻
第5章 小批次分布式並行圖神經網絡訓練與優化
5.1 樸素的小批次分布式並行訓練
5.1.1 訓練流程
5.1.2 問題與不足
5.2 執行引擎優化
5.2.1 小批次間的算子並行訓練
5.2.2 推拉混合的並行訓練
5.2.3 基於歷史嵌入的並行訓練
5.2.4 基於計算分解的數據並行訓練
5.3 圖采樣及其優化
5.3.1 基本的圖采樣方法
5.3.2 分布式圖采樣方法
5.4 數據緩存優化技術
5.5 通信機制及優化
5.5.1 集合通信
5.5.2 集合通信的死鎖問題
5.5.3 通信鏈路優化
5.6 小結
參考文獻
第6章 全圖分布式並行圖神經網絡訓練與優化
6.1 全圖分布式圖神經網絡訓練基本並行方法
6.1.1 子圖並行的全圖分布式訓練
6.1.2 算子並行的全圖分布式訓練
6.1.3 子圖並行與算子並行對比
6.1.4 全圖分布式並行圖神經網絡訓練的效率瓶頸
6.2 基於同步模型計算的效率優化
6.2.1 圖劃分策略
6.2.2 預聚合執行模式
6.2.3 高效的同步通信協議
6.3 基於異步模型計算的通信優化
6.3.1 異步執行模型
6.3.2 異步圖神經網絡訓練通信協議
6.4 小結
參考文獻
第7章 大規模圖神經網絡系統
7.1 圖神經網絡編程模型
7.1.1 以張量為中心的編程模型
7.1.2 以全圖為中心的編程模型
7.1.3 以節點為中心的編程模型
7.2 圖神經網絡系統與圖計算
7.3 面向單機多GPU的圖神經網絡系統
7.4 面向GPU集群的圖神經網絡系統
7.5 面向CPU集群的圖神經網絡系統
7.6 面向其他硬件平臺的圖神經網絡系統
7.7 圖神經網絡系統的對比與選擇
7.7.1 硬件設備
7.7.2 模型訓練方法
7.7.3 模型更新策略
7.8 小結
參考文獻
第8章 大規模圖神經網絡編程實踐
8.1 基於DGL的訓練環境配置
8.2 單機單卡訓練
8.2.1 基本訓練流程
8.2.2 簡單的圖神經網絡訓練案例
8.2.3 基於小批次的圖神經網絡訓練案例
8.3 分布式並行訓練
8.3.1 數據集的預處理
8.3.2 分布式數據通信接口
8.3.3 單機多GPU的訓練
8.3.4 基於集群的訓練
8.4 小結
參考文獻
第9章 總結與展望
參考文獻