Oct, 2024

小小的改进可带来巨大效益:基于部分上下文的高效长上下文训练与推理

TL;DR本研究解决了训练和服务长上下文大语言模型(LLMs)时的高开销问题。提出的LongGen方法将上下文长度扩展与GPU友好的KV缓存减少架构相结合,显著提高了长上下文的表现和训练效率,展现了在128K长上下文下的训练加速和内存节省的显著成果。