May, 2024

位置耦合:利用任务结构优化 Transformer 模型的长度泛化

TL;DR使用位置耦合方法的 Transformer 可以解决包括多位数的加法在内的算术任务,同时还可应用于其他算法任务。