May, 2023

Quiver:支持工作负载感知的低延迟、高吞吐量 GNN 服务 GPU 支持

TL;DR本研究讨论了基于图神经网络(GNN)的推理系统如何结合低延迟和高吞吐量,提出了一个分布式GPU-based GNN服务系统 靠工作负载指标预测GNN请求的不规则计算特征并管理GPU的使用,利用概率性采样来提高GPU的采样性能并指导特征聚合。通过与现有的GNN方法(DGL和PyG)的比较,Quiver取得了高达35倍的低延迟和8倍的高吞吐量。