Transformer 架构的限制
本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性,研究结果表明 Transformer 模型虽然具有出色的多步推理性能,但其解决复合任务的方式是将多步推理化简为线性子图匹配,而并未完全发展出解决问题的系统性解决问题的方法,同时,随着任务复杂度的增加,Transformer 模型的性能也会快速下降。
May, 2023
我们分析了 Transformer 语言模型在学习离散算法方面的能力,通过引入两个需要组合多个离散子任务的新任务,我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时,度量了学习的基本组合。我们观察到,最先进的 Transformer 语言模型的组合能力非常有限,而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理,证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。
Feb, 2024
本研究证明,在大型语言模型中消除幻觉是不可能的,因为我们定义了一个形式世界,其中幻觉被定义为一个可计算的语言模型与一个可计算的真实函数之间的不一致性。通过使用学习理论的结果,我们表明语言模型无法学习所有的可计算函数,因此它们将始终产生幻觉。此外,我们还描述了真实世界中受幻觉影响的任务,并通过实证验证了我们的论点。最后,我们讨论了现有幻觉减轻方法的可能机制和功效,以及对安全部署大型语言模型的实际影响。
Jan, 2024
该文章提出了一种基于数据分布的组合建模通用框架,证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数,可在训练数据上产生新的、格式正确的例子,进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强,在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果,在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。
Jan, 2022
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来 LLM 幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
研究信息在解码器单独的 Transformer 模型中的传播,发现了表示崩溃现象和对特定标记的敏感性丧失,并提供了简单的解决方案。
Jun, 2024
调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
大型语言模型在数学推理方面研究了系统组合性,通过引入精心设计的逻辑漏洞陷阱构建了一个新的数据集 MathTrap,发现虽然大型语言模型具备所需知识的两个组成部分,但它们不会自发地组合起来处理这些新问题,通过自然语言提示、少示范演示和微调等多种方法可以减轻这种缺陷,但系统的组合性仍然是大型语言模型面临的一个未解决挑战。
May, 2024
该论文通过对多个大型语言模型的行为研究发现,训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素,这些模型在自然语言推断等应用任务中表现出明显的问题。
May, 2023
通过广泛系统实验,我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强 LLMs,可以轻松地记忆大数据集,为去除幻觉设计了 Lamini-1 模型。
Jun, 2024