May, 2023
随机位置编码增强 Transformer 的长度泛化
Randomized Positional Encodings Boost Length Generalization of Transformers
Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás...
TL;DR本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。