May, 2023

随机位置编码增强 Transformer 的长度泛化

TL;DR本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。