May, 2024

学习正确的潜在变量是否必然改善上下文中的学习?

TL;DR对于大型自回归模型,如 Transformer,它们可以通过上下文学习 (即 ICL) 在不学习新权重的情况下解决任务,从而提供了高效解决新任务的方法。本文系统地研究了明确推断任务潜变量的效果,并发现与标准 Transformer 相比,在任务相关潜变量方面存在很少可辨别的差异,倾向于任务相关潜变量并不能普遍提高超出分布的性能;研究还发现,虽然瓶颈层可以有效地从上下文中提取潜在的任务变量,但下游处理很难利用它们进行稳健的预测。这项研究突显了 Transformer 在实现结构化的上下文学习解决方案方面的固有局限性,并表明虽然推断正确的潜变量有助于解释性,但对于解决这个问题来说并不足够。