深入研究逆转诅咒:大型语言模型能在多大程度上进行泛化?
该研究探讨了基于 transformer 的语言模型的长度推广能力,发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广,并鉴别了错误的共同来源,为赋予语言模型推广到更长问题的能力提供了新的机会。
Jul, 2022
该研究揭示了自回归大型语言模型(LLM)中的泛化失败现象,即逆转诅咒,导致逻辑推断的基本失败。通过证据和评估表明Reversal Curse在不同模型大小和家族中都是普遍存在的。
Sep, 2023
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次,文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
通过系统分析语言模型的内部知识和检索信息间的冲突来回答疑问,我们发现正确的检索信息可以修复大多数模型错误,但当参考文档中存在错误信息时,模型的内部知识对该错误信息存在较大的依赖性。这些结果突显了模型的先验知识与参考文档中呈现的信息之间的潜在紧张关系。
Apr, 2024
最好的语言模型仍然在幻影现象方面存在困难:生成的事实不正确,这妨碍了它们在训练期间可靠地检索到的信息;我们将逆序诅咒重新界定为因子化诅咒-模型在不同的因子化下学习相同联合分布的失败;通过一系列的受控实验,包括我们引入的模拟知识密集的微调任务的WikiReversal,我们发现因子化诅咒是流行大型语言模型中使用的下一个标记预测目标的固有失败;此外,我们证明可靠的信息检索无法通过规模、反向标记甚至朴素的双向注意力训练来解决;因此,在专门数据上进行微调的各种方法在下游任务上必然会产生不同的结果,除非模型已经看到正确的令牌序列;在五个不同复杂程度的任务中,我们的结果揭示了一个有希望的前进路径:因子化不可知目标可以显著减轻逆序诅咒,并暗示了改进的知识存储和计划能力。
Jun, 2024
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了LLMs在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对LLM推理的理解,并提出了改进它们解决问题能力的方法。
Jun, 2024
本研究探讨了语言模型在通过随机标签微调“忘记”技能后的行为变化,揭示了不同任务中遗忘的普遍性和内容依赖性。研究发现,遗忘的有效性与模型在训练数据上的初始任务预测信心以及表示的变异性相关,且即使在遗忘后线性探测器也能可靠执行任务,这表明针对特定技能的遗忘极具挑战性和不确定性。
Sep, 2024
本研究针对大型语言模型(LLMs)在泛化能力与记忆之间的纠缠问题,提出了新颖的Scylla动态评估框架,通过在5个复杂度级别上的20个任务中量化评估模型对分布内(ID)和分布外(OOD)数据的表现。研究发现,任务复杂性与ID与OOD数据表现差距之间的非单调关系揭示了所谓的“泛化谷”,指出LLMs的泛化能力存在上限,并表明随着模型规模的增大,能处理更复杂任务的临界复杂度也随之提高。
Oct, 2024
本研究探讨了大型语言模型(LLM)微调过程中学习动态对后续泛化的影响,特别是在推理任务中。通过引入“预记忆训练准确度”这一训练指标,本文表明该指标能有效预测测试准确度并指导数据选择,从而在数据效率上实现显著提升。
Nov, 2024