Jun, 2024

显式编码结构对算术任务的长度泛化至关重要

TL;DR基于修改后的数字格式化和自定义位置编码,我们的方法允许 Transformer 在加法和乘法中以最多 5 位数的数字进行训练并推广到 50 位数,而无需使用更多的数据来处理更长的序列。