镜像:一种适用于知识丰富推理的多角度自省方法
我们提出了一种基于自对照的策略,通过适应性地探索多样的解决观点、对比差异并总结出这些差异的清单,为大型语言模型增添了多样的视角,以减轻固执偏见,并且更准确和稳定地进行反思。
Jan, 2024
最近的研究表明,自我反思的提示可以显著提高大型语言模型(LLMs)的推理能力。然而,使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力,在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧:自我反思在 TruthfulQA 中提高了性能,但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析,以阐明这些模式中的影响因素,并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响:具体而言,在模型初始答案不太可能正确和整体问题难度较高时,自我反思显示出最大的益处。我们还发现,自我反思降低了多数投票的趋势。基于我们的发现,我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。
Apr, 2024
Reflexion is a new decision-making approach enhanced with dynamic memory and self-reflection capabilities to complete tasks, including knowledge-intensive search-based question-and-answer tasks in HotPotQA environments, and achieves automation with a heuristic that enables the agent to pinpoint hallucination instances, among other things.
Mar, 2023
利用自我反思的模型生成语言反馈,METAREFLECTION 技术能够学习特定领域的通用提示指令并提高大型语言模型的效率。在基础设施即代码漏洞检测和问答方面,METAREFLECTION 相对于 GPT-4 表现出 16.82%(IAC)、31.33%(COT)和 15.42%(REACT)的显著改进。
May, 2024
研究调查了自我反思对大型语言模型(LLMs)在问题解决性能上的影响,结果表明 LLM 代理能够通过自我反思显著提高问题解决性能,此外,对比了各种类型的自我反思以确定它们对性能的个体贡献。
May, 2024
大型语言模型通过自我反思在提高零样本和少样本推理能力方面表现出令人印象深刻的能力。我们通过首先证明自我反思的结果对提示语言敏感,例如,当明确提示查找错误时,更有可能得出错误的结论。因此,反思提示中的个别因素可能导致不必要地更改正确的反应。我们展示了自我反思文献中使用的大多数提示都容易产生偏差,并提出了构建保守识别错误的提示的不同方式。我们的研究结果强调了自我反思任务中提示工程的重要性。
Jun, 2024
利用双向学习的自我反思框架来提高翻译任务、增强模型的自我反思能力并改进翻译表现,特别适用于低资源语言对的翻译任务,大大提高了翻译准确性和消除了歧义。
Jun, 2024
大型语言模型(LLMs)在自然语言处理领域取得了显著的进展,但是考虑到它们的规模和计算需求,将这些模型实际部署在资源受限的环境中面临着巨大的挑战。为了解决这些问题,我们提出了一种双重方法:首先,我们引入了一种将 LLMs 中固有的自我评价能力提取到 SLMs 中的新方法,旨在减少错误推理和幻觉的不利影响。其次,我们建议采用综合的蒸馏过程,结合多种不同的链式思维和自我评价范式,确保更全面、更稳健地将知识转移至 SLMs 中。在三个自然语言处理基准测试上进行的实验表明,我们的方法显著提高了蒸馏 SLMs 的性能,并为开发与人类认知更接近的较小模型指明了方向。
Nov, 2023
在大型语言模型中添加一个反思层次,通过构建信念图和使用形式化的约束推理器,从而减少其答案与其他 “信念” 的依赖关系和不一致性,REFLEX 方法可以改善一定程度的一致性,同时不降低模型的答案准确性。
May, 2023
使用先进的 SaySelf 训练框架,通过自动总结知识不确定性以及分析不一致性,教导大语言模型表达更准确的细粒度置信度评估,并通过强化学习和奖励机制校准置信度估计,降低校准错误并保持任务性能。
May, 2024