May, 2024

变压器能够通过正确的嵌入进行算术运算

TL;DR通过在每个数字上添加编码其相对于数字起始位置的嵌入,解决了 transformers 在算术任务中表现较差的问题,并展示了该修复方法进一步提高性能的架构修改方法。通过解决位置问题,研究了 transformers 的逻辑推理能力,并发现通过单个 GPU 训练一天,仅使用 20 位数字,在 100 位加法问题上实现了高达 99% 的准确率的最新结果,并证明这种提高数字能力的方法也适用于其他多步骤推理任务,如排序和乘法。