May, 2022

KERPLE:用于长度外推的核化相对位置嵌入

TL;DR提出了一种广义的相对位置嵌入的框架 KERPLE,通过核化位置差异实现外推,实验结果表明,对于三个大型语言模型数据集,采用对数变体可以实现良好的外推性能。