自我对比:更好的反射通过不一致的解决视角
大型语言模型通过自我反思在提高零样本和少样本推理能力方面表现出令人印象深刻的能力。我们通过首先证明自我反思的结果对提示语言敏感,例如,当明确提示查找错误时,更有可能得出错误的结论。因此,反思提示中的个别因素可能导致不必要地更改正确的反应。我们展示了自我反思文献中使用的大多数提示都容易产生偏差,并提出了构建保守识别错误的提示的不同方式。我们的研究结果强调了自我反思任务中提示工程的重要性。
Jun, 2024
提出了一种多视角自反思方法 Mirror,通过导航器和推理器之间的启发式相互作用,使 LLMs 能够从多个视角线索进行反思,从而避免陷入特定的反思迭代,实验结果表明 Mirror 在几个当代自反思方法上具有优势,并且消除了之前面临的挑战。
Feb, 2024
最近的研究表明,自我反思的提示可以显著提高大型语言模型(LLMs)的推理能力。然而,使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力,在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧:自我反思在 TruthfulQA 中提高了性能,但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析,以阐明这些模式中的影响因素,并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响:具体而言,在模型初始答案不太可能正确和整体问题难度较高时,自我反思显示出最大的益处。我们还发现,自我反思降低了多数投票的趋势。基于我们的发现,我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。
Apr, 2024
研究调查了自我反思对大型语言模型(LLMs)在问题解决性能上的影响,结果表明 LLM 代理能够通过自我反思显著提高问题解决性能,此外,对比了各种类型的自我反思以确定它们对性能的个体贡献。
May, 2024
最近的研究表明,自我反馈可以改善大型语言模型在某些任务上的表现,但对其他任务而言则会恶化。我们发现这种矛盾是由于语言模型对自己的输出存在偏见所致。本文通过两个统计量正式定义了语言模型的自我偏见 —— 偏爱其自身生成的内容。我们分析了六个语言模型在翻译、受限文本生成和数学推理任务上的表现。我们发现自我偏见在所有研究的语言模型中普遍存在,并且跨多种语言和任务。我们的分析揭示了自我优化流程虽然可以提高模型输出的流畅度和可理解性,但会进一步放大自我偏见。为了减轻这种偏见,我们发现更大的模型规模和准确评估的外部反馈可以显著减少自我优化流程中的偏见,从而在下游任务中实现实际性能的提升。
Feb, 2024
本文探讨了自我纠错在大型语言模型中的作用和效果,发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应,在某些情况下,性能甚至可能在自我纠正后下降。基于这些发现,提出了未来研究和实际应用的建议。
Oct, 2023
大型语言模型(LLMs)在自然语言处理领域取得了显著的进展,但是考虑到它们的规模和计算需求,将这些模型实际部署在资源受限的环境中面临着巨大的挑战。为了解决这些问题,我们提出了一种双重方法:首先,我们引入了一种将 LLMs 中固有的自我评价能力提取到 SLMs 中的新方法,旨在减少错误推理和幻觉的不利影响。其次,我们建议采用综合的蒸馏过程,结合多种不同的链式思维和自我评价范式,确保更全面、更稳健地将知识转移至 SLMs 中。在三个自然语言处理基准测试上进行的实验表明,我们的方法显著提高了蒸馏 SLMs 的性能,并为开发与人类认知更接近的较小模型指明了方向。
Nov, 2023
大型语言模型具有在各种自然语言处理任务中引人注目的能力,但它们存在产生错误信息的问题,自校正被视为提高模型性能的一种解决方案,其中内在自校正被认为是一种有前途的方向。本文通过理论分析和实证实验,对大型语言模型的内在自校正能力提出了新的观点,并确定了两个关键因素:零温度和公正提示,利用这些因素证明内在自校正能力存在于多个现有大型语言模型中。我们的发现揭示了大型语言模型自我纠正行为的基本原理,并强调在发挥其全部潜力上公正提示和零温度设置的重要性。
Jun, 2024
通过使用适当的指示,大型语言模型可以利用内在的自我纠正能力,从而提高其回答的准确性和性能,这在大规模自然语言生成中具有潜在的扩展性。同时,通过分析模型不确定性和激活的潜在概念,可以更好地理解和指导自我纠正行为。此原理还可以推广到视觉语言模型,并且在任务无关的去偏领域有潜在的应用价值。
Jun, 2024
利用双向学习的自我反思框架来提高翻译任务、增强模型的自我反思能力并改进翻译表现,特别适用于低资源语言对的翻译任务,大大提高了翻译准确性和消除了歧义。
Jun, 2024