May, 2024

部署长上下文变压器的挑战:理论峰值性能分析

TL;DR为了降低长上下文 Transformer 模型的成本并解决效率挑战,本研究提出了一种并行编程框架,用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战,并识别出减少 1M 上下文推断成本的可能方向。