Feb, 2024

一个关于训练于符号多步推理任务的 Transformer 的机制分析

TL;DR通过对合成推理任务进行综合机械分析,我们鉴定了一组可解释的机制,这个模型用来解决任务,并使用相关和因果证据验证了我们的发现。我们的结果表明,它实现了一组深度有限的并行循环机制,并将中间结果存储在选择的令牌位置,我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。