Aug, 2023

理解生成式 Transformer 模型在 OOD 泛化中的神秘性能下降

TL;DR基于生成 Transformer 模型在解决各种问题方面取得了显著的熟练度,但其泛化能力尚未被完全理解并且不始终令人满意。研究人员将 n 位数加法或乘法等基本数学任务作为调查其泛化行为的重要角度。然而,有趣的是,当在 n 位数操作(例如加法)上进行训练时,模型在未见过的 n 位数输入上可以成功泛化(分布内泛化),但在更长的、未见过的情况下却失败且神秘(分布外泛化)。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而,如果不解决基本机制,对于这些解决方案的鲁棒性几乎没有任何保证。我们引起人们对这种无法解释的性能下降的注意,并询问它是否纯粹是由于随机错误。在这里,我们转向机制研究的线路,这在模型可解释性方面取得了显著的成功。我们发现强 ID 泛化源于结构化表示,而在令人不满意的 OOD 性能方面,模型仍然展现出明确的学习代数结构。具体而言,这些模型将未见过的 OOD 输入映射到具有 ID 域等价关系的输出。这凸显了模型携带有用信息以改善泛化的潜力。