Sep, 2024

CSPS:基于序列并行的通信高效Transformer模型服务系统

TL;DR本研究针对现有长序列生成模型在处理长提示时存在的高首字母延迟(Time-To-First-Token)和低吞吐量问题,提出了一种基于序列并行的新架构。通过引入通信高效稀疏注意力和三阶段流水线,显著提升了响应时间和处理效率,使得在维持准确率的同时,提升了整体性能。