May, 2024

通过训练动力学探索“逆转诅咒”的理论理解

TL;DR通过训练动力学,理论分析自回归模型中的逆转问题,揭示了逆转诅咒发生的核心原因是自回归模型的权重存在不对称性;同时,证明了链式思维在一层变压器中的必要性,并进行了与多层变压器的实验证实。