LLM 代理人中的自我反思对问题解决能力的影响
大型语言模型通过自我反思在提高零样本和少样本推理能力方面表现出令人印象深刻的能力。我们通过首先证明自我反思的结果对提示语言敏感,例如,当明确提示查找错误时,更有可能得出错误的结论。因此,反思提示中的个别因素可能导致不必要地更改正确的反应。我们展示了自我反思文献中使用的大多数提示都容易产生偏差,并提出了构建保守识别错误的提示的不同方式。我们的研究结果强调了自我反思任务中提示工程的重要性。
Jun, 2024
我们提出了一种基于自对照的策略,通过适应性地探索多样的解决观点、对比差异并总结出这些差异的清单,为大型语言模型增添了多样的视角,以减轻固执偏见,并且更准确和稳定地进行反思。
Jan, 2024
最近的研究表明,自我反思的提示可以显著提高大型语言模型(LLMs)的推理能力。然而,使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力,在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧:自我反思在 TruthfulQA 中提高了性能,但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析,以阐明这些模式中的影响因素,并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响:具体而言,在模型初始答案不太可能正确和整体问题难度较高时,自我反思显示出最大的益处。我们还发现,自我反思降低了多数投票的趋势。基于我们的发现,我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。
Apr, 2024
Reflexion is a new decision-making approach enhanced with dynamic memory and self-reflection capabilities to complete tasks, including knowledge-intensive search-based question-and-answer tasks in HotPotQA environments, and achieves automation with a heuristic that enables the agent to pinpoint hallucination instances, among other things.
Mar, 2023
提出了一种多视角自反思方法 Mirror,通过导航器和推理器之间的启发式相互作用,使 LLMs 能够从多个视角线索进行反思,从而避免陷入特定的反思迭代,实验结果表明 Mirror 在几个当代自反思方法上具有优势,并且消除了之前面临的挑战。
Feb, 2024
利用自我反思的模型生成语言反馈,METAREFLECTION 技术能够学习特定领域的通用提示指令并提高大型语言模型的效率。在基础设施即代码漏洞检测和问答方面,METAREFLECTION 相对于 GPT-4 表现出 16.82%(IAC)、31.33%(COT)和 15.42%(REACT)的显著改进。
May, 2024
本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化,从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能,却不调整 LMM 参数,结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。
May, 2023
研究通过构建自我认知指令提示池,评估大型语言模型的自我认知,并提出四个原则来量化模型的自我认知水平。结果显示在 Chatbot Arena 的 48 个模型中,有 4 个模型展示出可检测到的自我认知。模型规模、训练数据质量与自我认知水平之间存在正向相关关系。此外,研究还探索了自我认知状态下大型语言模型的效用和可信度,揭示了自我认知状态增强创造性写作和夸张等特定任务的能力。这项工作有望激发进一步研究大型语言模型的自我认知。
Jul, 2024
我们介绍了一种新颖的方法,为 LLM 智能体提供自省能力,以增强其在解决复杂任务中的一致性和适应性。我们的方法促使 LLM 智能体将给定的任务分解为可管理的子任务(即制定计划),并持续对其行动的适用性和结果进行自省。通过在 Web 环境中使用这种零样本方法进行实际任务的部署和实验,我们的智能体展示了优于现有零样本方法的性能。实验结果表明,我们的自省驱动方法不仅通过稳定的计划执行机制增强了智能体应对意外挑战的能力,而且通过减少试验和计划修订所需的次数,提高了任务的效率。
May, 2024