ICLROct, 2023

理解 Transformer 中的加法

TL;DR这篇论文通过深入分析一个层次的 Transformer 模型在整数加法训练中的使用,揭示了该模型将任务划分为并行的、特定于数字的流,并对不同的数字位置采用不同的算法。研究还发现模型开始计算较晚但执行较快,识别并解释了一个稀有但损失较高的使用案例。总体上,该模型的算法得到了详细解释,这些发现通过严格的测试和数学建模得到了验证,对于机制解释性、人工智能安全性和对齐等广泛领域的工作具有重要贡献。我们的方法为分析更复杂的任务和多层 Transformer 模型打开了大门。