逆转诅咒:基于 “A 是 B” 训练的 LLMs 无法学习到 “B 是 A
通过训练动力学,理论分析自回归模型中的逆转问题,揭示了逆转诅咒发生的核心原因是自回归模型的权重存在不对称性;同时,证明了链式思维在一层变压器中的必要性,并进行了与多层变压器的实验证实。
May, 2024
大型语言模型(LLMs)在 “A 具有特征 B” 的训练中无法推广到 “B 是 A 的特征”,这称为反转诅咒。本研究提出了一种替代训练方案,称为反向训练,通过将训练字符串进行反转并保留(即不反转)选择的子字符串(如实体)来同时以正向和反向方式训练 LLM,以加倍可用令牌的数量。我们证明,数据匹配的反向训练模型在标准任务上提供了优越的性能,而计算匹配的反向训练模型在反转任务上提供了远超过标准模型的性能,有助于解决反转诅咒问题。
Mar, 2024
在这项研究中,我们探讨了大规模语言模型在逻辑推理方面的局限性,发现 ChatGPT 等自回归解码器训练模型在 'A 是 B' 的任务中往往无法学习到 'B 是 A',从而揭示了它们在逻辑演绎上的失败。我们的研究不仅对双向语言模型 BERT 进行了评估,发现其对逆转诅咒具有免疫能力,还探索了医学知识图谱构建中的复杂演绎推理能力。尽管在处理两个集合(并集 / 交集)的情况下编码器和解码器模型表现良好,但在涉及三个集合的操作(并集、交集的各种组合)时,它们遇到了困难。因此,选择 BERT 和 GPT 模型应该根据任务的具体要求和性质,充分利用它们在双向上下文理解和序列预测方面的优势。
Dec, 2023
本文研究双向语言模型编辑,旨在提供严格的模型编辑评估,以评估编辑后的语言模型是否能双向回忆编辑的知识。引入了一种新的可逆性评估度量,并构建了一个名为 Bidirectional Assessment for Knowledge Editing (BAKE) 的基准来评估编辑后模型在回忆编辑的知识反向方向上的可逆性。我们惊奇地发现,虽然当前的编辑方法和语言模型在编辑方向上能有效地回忆编辑的事实,但在反向方向上评估时存在严重不足。为了缓解这种逆转的问题,提出了一种名为 Bidirectionally Inversible Relationship moDeling (BIRD) 的方法。设计了一组编辑目标,将主体和客体之间的双向关系纳入更新后的模型权重中。实验证明,BIRD 通过问答和判断提高了四个不同规模的代表性语言模型的性能。
Oct, 2023
最好的语言模型仍然在幻影现象方面存在困难:生成的事实不正确,这妨碍了它们在训练期间可靠地检索到的信息;我们将逆序诅咒重新界定为因子化诅咒 - 模型在不同的因子化下学习相同联合分布的失败;通过一系列的受控实验,包括我们引入的模拟知识密集的微调任务的 WikiReversal,我们发现因子化诅咒是流行大型语言模型中使用的下一个标记预测目标的固有失败;此外,我们证明可靠的信息检索无法通过规模、反向标记甚至朴素的双向注意力训练来解决;因此,在专门数据上进行微调的各种方法在下游任务上必然会产生不同的结果,除非模型已经看到正确的令牌序列;在五个不同复杂程度的任务中,我们的结果揭示了一个有希望的前进路径:因子化不可知目标可以显著减轻逆序诅咒,并暗示了改进的知识存储和计划能力。
Jun, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
大型语言模型(LLMs)是自我监督的预训练模型,可适应广泛的自然语言任务,但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性,即它们表现出的智能实际上是镜像了面试官的智能,它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法,以实现人工智能的普遍自主权。
Jul, 2022
本研究针对 LLMs,比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型,通过实验验证了它们在处理否定句时的局限性,包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
Jun, 2023