Feb, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

TL;DR通过一种名为 RelayAttention 的算法,该论文提出了一种提高大型语言模型(LLM)服务效率的方法,解决了长系统提示导致的吞吐量 / 延迟瓶颈问题,该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态,从而消除了系统提示的冗余。