大型语言模型真正地进行了多好的接地?
我们对基于检索增强的大型语言模型在长篇问题回答中的接地性进行了实证研究。研究发现,尽管生成的句子中包含正确的答案,但在 3 个数据集和 4 个模型系列中,存在大量一致性未接地的句子。此外,我们还研究了模型大小、解码策略和指导调优等因素对接地性的影响。结果显示,尽管较大的模型更有效地将输出接地,但仍有相当数量的正确答案受到虚构内容的影响。这项研究为长篇问题回答中的接地性挑战提供了新的见解,并强调了在大型语言模型中采取更鲁棒的机制来减少未接地内容的生成的必要性。
Apr, 2024
这篇论文关注通过一种名为 AGREE 的新框架,综合地改善大型语言模型在真实世界中的应用,以解决其生成的 “幻觉” 答案不符事实的问题。通过在生成的自身立足回答中考虑所生成的支持信息,设计了一种迭代的测试时间调整能力来有效实现该框架,并通过提供引用来调整大型语言模型对检索文档中主张的立足。结果表明,基于调整的 AGREE 框架相较于基于提示的方法,生成了更好的基于立足的回答和更准确的引用。
Nov, 2023
中文摘要:本研究介绍了 Fakepedia,一个反事实数据集,用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现,并发现 GPT-4-turbo 更偏好参数化知识,而 Mistral-7B 则最稳定地选择了接地答案。此外,我们对大型语言模型进行因果中介分析,结果表明仅凭计算图的检查即可预测 92.8% 准确度的接地情况,尤其是变压器中的少数 MLP 可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合,提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。
Dec, 2023
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
这篇论文介绍了一个严格设计的框架,用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型,以提升其进行深入分析的能力,同时解剖了该框架的组成部分对模型性能的贡献,从而为改进推理能力提供了理论保证。
Nov, 2023
大型语言模型(LLMs)显示出它们在人类世界的丰富语义知识方面的强大自动推理和规划能力。然而,接地问题仍然阻碍了 LLMs 在真实环境中的应用。为了自主将 LLM 接地到环境中,我们提出了自主驱动接地(SDG)框架,用于自动和渐进地通过自主驱动技能学习将 LLM 接地。通过在著名的指令遵循任务集 - BabyAI 中进行验证,SDG 在最具挑战性的任务中达到了与成百上千次演示成本的模仿学习方法相媲美的性能,证明了学习到的技能的有效性,显示出我们框架的可行性和效率。
Sep, 2023
本文研究了大型语言模型(如 GPT-4)存在的挑战,特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战,旨在增强对此类错误的理解和缓解,从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外,我们证明了在正确校准的情况下,可能实现自动评分 —— 这一发现表明,至少在某种程度上,LLMs 可以用于自我检验其性能质量。最后,我们描述了一个实验平台,可以被视为对本文描述的技术的概念验证。
Dec, 2023
通过探究内在表征的多种不同地基于生物或人工系统方法(指示性、感觉运动、关系、交流和认识性地基础),梳理分化它们之间的差异,并阐述说明认为指示性地基础是矢量基础问题的关键所在。基于哲学和认知科学中的表征内容理论,本文提出了某些大语言模型(LLMs,尤其是使用人类反馈从 RLHF 进行调整的)具有克服矢量基础问题所必需的特征,并且提出,多模态和体现都不是人工系统指示性基础的必要或充分条件。
Apr, 2023