Jul, 2024

长序列模型对长序列的建模能力:对长上下文能力的架构归纳偏好比较

TL;DR长序列在现实场景中大量出现,适当地对其进行建模可以打开许多下游用例。然而,深度神经网络在处理长序列时常常面临各种困难。最近的进展在系统工程和模型设计方面使得可以扩展模型支持更长的上下文长度。然而,这是否过于美好而不切实际?我们进行了评估,并展示了虽然这些主张在理论上是可行的,但实际上存在大量的实践差距。特别是,在相同的设置中,循环模型仍然与具有注意力的长上下文语言模型存在类似的问题。我们进一步表明不同的归纳偏见在外推能力上存在不一致性,强调了需要进一步研究这些范例,以及研究为什么长上下文模型似乎无法按预期运行。