Transformer 架构的限制

Feb, 2024

On Limitations of the Transformer Architecture

Binghui Peng, Srini Narayanan, Christos Papadimitriou

TL;DR大型语言模型中幻觉的根本原因是通信复杂性，我们通过示例证明了 Transformer 层在函数的定义域足够大时无法进行函数组合（例如在家族谱中确定一个人的祖父），对于足够小的定义域，这种无能已经在实证上存在。我们还指出，对于足够大的实例并且在计算复杂性领域的某些公认猜想成立的前提下，一些被认为对 LLM 来说很难的核心组成任务很可能无法通过 Transformer 来解决。

Abstract

What are the root causes of hallucinations in large language models (LLMs)? We use communication complexity to prove that the

hallucinations large language models communication complexity transformer layer compositional tasks

发现论文，激发创造

信仰与命运：变形金刚在组合性上的局限性

本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性，研究结果表明 Transformer 模型虽然具有出色的多步推理性能，但其解决复合任务的方式是将多步推理化简为线性子图匹配，而并未完全发展出解决问题的系统性解决问题的方法，同时，随着任务复杂度的增加，Transformer 模型的性能也会快速下降。

May, 2023

变压器语言模型在算法学习上的限制

我们分析了 Transformer 语言模型在学习离散算法方面的能力，通过引入两个需要组合多个离散子任务的新任务，我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时，度量了学习的基本组合。我们观察到，最先进的 Transformer 语言模型的组合能力非常有限，而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理，证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。

Feb, 2024

幻觉是不可避免的：大型语言模型的固有限制

本研究证明，在大型语言模型中消除幻觉是不可能的，因为我们定义了一个形式世界，其中幻觉被定义为一个可计算的语言模型与一个可计算的真实函数之间的不一致性。通过使用学习理论的结果，我们表明语言模型无法学习所有的可计算函数，因此它们将始终产生幻觉。此外，我们还描述了真实世界中受幻觉影响的任务，并通过实证验证了我们的论点。最后，我们讨论了现有幻觉减轻方法的可能机制和功效，以及对安全部署大型语言模型的实际影响。

Jan, 2024

组合性作为词汇对称性

该文章提出了一种基于数据分布的组合建模通用框架，证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数，可在训练数据上产生新的、格式正确的例子，进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强，在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果，在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。

Jan, 2022

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

Transformer 需要眼镜！语言任务中的信息过度压缩

研究信息在解码器单独的 Transformer 模型中的传播，发现了表示崩溃现象和对特定标记的敏感性丧失，并提供了简单的解决方案。

Jun, 2024

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

探索大型语言模型在数学推理中的组合不足

大型语言模型在数学推理方面研究了系统组合性，通过引入精心设计的逻辑漏洞陷阱构建了一个新的数据集 MathTrap，发现虽然大型语言模型具备所需知识的两个组成部分，但它们不会自发地组合起来处理这些新问题，通过自然语言提示、少示范演示和微调等多种方法可以减轻这种缺陷，但系统的组合性仍然是大型语言模型面临的一个未解决挑战。

May, 2024

推理任务中大型语言模型产生幻觉的来源

该论文通过对多个大型语言模型的行为研究发现，训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素，这些模型在自然语言推断等应用任务中表现出明显的问题。

May, 2023

消除 LLM 幻觉需要重新思考泛化

通过广泛系统实验，我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉，并通过大量内存专家的混合来增强 LLMs，可以轻松地记忆大数据集，为去除幻觉设计了 Lamini-1 模型。

Jun, 2024