Aug, 2023

LM-Infinite:大语言模型的简易即时长度泛化

TL;DR基于Transformer的大型语言模型存在长度泛化问题,传统的预训练模式需要耗费大量时间和资源进行解决,本研究提出了一种简单而有效的解决方案LM-Infinite,不需要参数更新或学习,具有计算效率高且生成质量好的特点,在长序列上有较之前的模型更好的表现。