AAAIOct, 2023

使用 Transformer 进行计数和算法推广

TL;DR机器学习中的算法泛化是指以一种能够概括超出数据分布的方式学习生成数据的底层算法。在本研究中,我们分析了在涉及计数时,不论是隐式还是显式所需的算法泛化。我们展示了标准 Transformer 模型基于的架构决策阻碍了此类任务的超出分布性能。特别是,我们讨论了使用层归一化和通过 softmax 归一化注意力权重的后果。通过消融引起问题的操作,我们证明通过使用非常轻量级的架构,修改后的 Transformer 能够表现出良好的计数算法泛化性能。