Sep, 2023
注意力汇聚的高效流式语言模型
Efficient Streaming Language Models with Attention Sinks
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis
TL;DR部署大型语言模型(LLMs)在流式应用中的一个研究论文,介绍了两个主要挑战和一个有效的解决方案 StreamingLLM,用于长文本的流式部署,能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。