Sep, 2023

注意力汇聚的高效流式语言模型

TL;DR部署大型语言模型(LLMs)在流式应用中的一个研究论文,介绍了两个主要挑战和一个有效的解决方案 StreamingLLM,用于长文本的流式部署,能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。