LLM 代理人中的自我反思对问题解决能力的影响

May, 2024

LLM 代理人中的自我反思对问题解决能力的影响

Self-Reflection in LLM Agents: Effects on Problem-Solving Performance

Matthew Renze, Erhan Guven

TL;DR研究调查了自我反思对大型语言模型（LLMs）在问题解决性能上的影响，结果表明 LLM 代理能够通过自我反思显著提高问题解决性能，此外，对比了各种类型的自我反思以确定它们对性能的个体贡献。

Abstract

In this study, we investigated the effects of self-reflection in large language models (LLMs) on problem-solving performance. We instructed nine popular LLMs to answer a series of →

self-reflection large language models problem-solving performance multiple-choice questions self-reflecting agent

发现论文，激发创造

自我反思结果对提示构建敏感

大型语言模型通过自我反思在提高零样本和少样本推理能力方面表现出令人印象深刻的能力。我们通过首先证明自我反思的结果对提示语言敏感，例如，当明确提示查找错误时，更有可能得出错误的结论。因此，反思提示中的个别因素可能导致不必要地更改正确的反应。我们展示了自我反思文献中使用的大多数提示都容易产生偏差，并提出了构建保守识别错误的提示的不同方式。我们的研究结果强调了自我反思任务中提示工程的重要性。

Jun, 2024

自我对比：更好的反射通过不一致的解决视角

我们提出了一种基于自对照的策略，通过适应性地探索多样的解决观点、对比差异并总结出这些差异的清单，为大型语言模型增添了多样的视角，以减轻固执偏见，并且更准确和稳定地进行反思。

Jan, 2024

当回顾不再是 20/20：大型语言模型反思思维的测试限制

最近的研究表明，自我反思的提示可以显著提高大型语言模型（LLMs）的推理能力。然而，使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力，在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧：自我反思在 TruthfulQA 中提高了性能，但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析，以阐明这些模式中的影响因素，并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响：具体而言，在模型初始答案不太可能正确和整体问题难度较高时，自我反思显示出最大的益处。我们还发现，自我反思降低了多数投票的趋势。基于我们的发现，我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。

Apr, 2024

Reflexion：具备动态记忆和自我反思能力的自主智能体

Reflexion is a new decision-making approach enhanced with dynamic memory and self-reflection capabilities to complete tasks, including knowledge-intensive search-based question-and-answer tasks in HotPotQA environments, and achieves automation with a heuristic that enables the agent to pinpoint hallucination instances, among other things.

Mar, 2023

镜像：一种适用于知识丰富推理的多角度自省方法

提出了一种多视角自反思方法 Mirror，通过导航器和推理器之间的启发式相互作用，使 LLMs 能够从多个视角线索进行反思，从而避免陷入特定的反思迭代，实验结果表明 Mirror 在几个当代自反思方法上具有优势，并且消除了之前面临的挑战。

Feb, 2024

元反省：利用过去反思学习语言代理的指令

利用自我反思的模型生成语言反馈，METAREFLECTION 技术能够学习特定领域的通用提示指令并提高大型语言模型的效率。在基础设施即代码漏洞检测和问答方面，METAREFLECTION 相对于 GPT-4 表现出 16.82%（IAC）、31.33%（COT）和 15.42%（REACT）的显著改进。

May, 2024

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

大规模语言模型中的自我认知：一项探索性研究

研究通过构建自我认知指令提示池，评估大型语言模型的自我认知，并提出四个原则来量化模型的自我认知水平。结果显示在 Chatbot Arena 的 48 个模型中，有 4 个模型展示出可检测到的自我认知。模型规模、训练数据质量与自我认知水平之间存在正向相关关系。此外，研究还探索了自我认知状态下大型语言模型的效用和可信度，揭示了自我认知状态增强创造性写作和夸张等特定任务的能力。这项工作有望激发进一步研究大型语言模型的自我认知。

Jul, 2024

TasTe: 通过自我反思教授大型语言模型进行翻译

TasTe 框架通过自我反思的过程提出了一种新的方法，通过指导和评估生成的初步翻译，并最终提高翻译质量和大型语言模型的能力。

Jun, 2024

魔鬼的辩护：面向 LLM 代理的预期反思

我们介绍了一种新颖的方法，为 LLM 智能体提供自省能力，以增强其在解决复杂任务中的一致性和适应性。我们的方法促使 LLM 智能体将给定的任务分解为可管理的子任务（即制定计划），并持续对其行动的适用性和结果进行自省。通过在 Web 环境中使用这种零样本方法进行实际任务的部署和实验，我们的智能体展示了优于现有零样本方法的性能。实验结果表明，我们的自省驱动方法不仅通过稳定的计划执行机制增强了智能体应对意外挑战的能力，而且通过减少试验和计划修订所需的次数，提高了任务的效率。

May, 2024