魔鬼的辩护：面向 LLM 代理的预期反思

May, 2024

魔鬼的辩护：面向 LLM 代理的预期反思

Devil's Advocate: Anticipatory Reflection for LLM Agents

Haoyu Wang, Tao Li, Zhiwei Deng, Dan Roth, Yang Li

TL;DR我们介绍了一种新颖的方法，为 LLM 智能体提供自省能力，以增强其在解决复杂任务中的一致性和适应性。我们的方法促使 LLM 智能体将给定的任务分解为可管理的子任务（即制定计划），并持续对其行动的适用性和结果进行自省。通过在 Web 环境中使用这种零样本方法进行实际任务的部署和实验，我们的智能体展示了优于现有零样本方法的性能。实验结果表明，我们的自省驱动方法不仅通过稳定的计划执行机制增强了智能体应对意外挑战的能力，而且通过减少试验和计划修订所需的次数，提高了任务的效率。

Abstract

In this work, we introduce a novel approach that equips llm agents with introspection, enhancing consistency and adaptability in solving complex tasks. Our approach prompts →

introspection llm agents plan execution zero-shot approach task efficiency

发现论文，激发创造

Reflexion：具备动态记忆和自我反思能力的自主智能体

Reflexion is a new decision-making approach enhanced with dynamic memory and self-reflection capabilities to complete tasks, including knowledge-intensive search-based question-and-answer tasks in HotPotQA environments, and achieves automation with a heuristic that enables the agent to pinpoint hallucination instances, among other things.

Mar, 2023

自省计划：引导语言能力代理改进自身的不确定性

通过引入内省计划的概念，该论文探讨了使用无需微调的系统化方法来引导大型语言模型进行感知不确定性的规划，以此改进机器人任务执行的成功率和安全性。并且研究了结合符合预测方法的内省计划的有效性，结果显示此组合可以提供更紧密的置信区间，在减少用户澄清查询的同时保持统计成功保证。

Feb, 2024

LLM 代理人中的自我反思对问题解决能力的影响

研究调查了自我反思对大型语言模型（LLMs）在问题解决性能上的影响，结果表明 LLM 代理能够通过自我反思显著提高问题解决性能，此外，对比了各种类型的自我反思以确定它们对性能的个体贡献。

May, 2024

零射语言代理用于带有结构反射的计算机控制

通过自反思和结构化思考管理，我们的零 - shot 代理在简单的 MiniWoB++ 任务中表现出更高效的推理能力，并且在复杂的任务中能够与之前的最佳模型相媲美，尽管之前的研究可以访问专家示例或额外的屏幕信息。

Oct, 2023

内省学习

本文介绍了一种基于 Introspection Learning 的反向传播算法，使用该算法可直接向神经网络提问，无需通过与环境的交互，该算法不依赖强化学习算法，其返回的状态可用于检测策略的健康状况或塑造策略以满足安全约束的多种方式，证明了该算法在加速训练和提高安全性方面的有效性。

Feb, 2019

元反省：利用过去反思学习语言代理的指令

利用自我反思的模型生成语言反馈，METAREFLECTION 技术能够学习特定领域的通用提示指令并提高大型语言模型的效率。在基础设施即代码漏洞检测和问答方面，METAREFLECTION 相对于 GPT-4 表现出 16.82%（IAC）、31.33%（COT）和 15.42%（REACT）的显著改进。

May, 2024

Agent-Pro: 通过策略层面的反思与优化进行学习进化

Agent-Pro 是基于 LLM 的智能代理，具备策略级别的反思和优化能力，可以通过互动经验不断学习和提升行为策略，在复杂和动态场景中表现出色。

Feb, 2024

镜像：一种适用于知识丰富推理的多角度自省方法

提出了一种多视角自反思方法 Mirror，通过导航器和推理器之间的启发式相互作用，使 LLMs 能够从多个视角线索进行反思，从而避免陷入特定的反思迭代，实验结果表明 Mirror 在几个当代自反思方法上具有优势，并且消除了之前面临的挑战。

Feb, 2024

内省知觉：学习预测视觉系统中的故障

该文提出了一个自我评估的能力 —— 内省，并基于此提出了一个模型，通过输入的感应器数据可可靠地预测给定任务下系统的失败。该模型在室外自然环境下的视觉自主微型飞行器飞行中表现出效果显著。

Jul, 2016

元认知是否就足够了？在生成式代理中使用内省来改进目标导向行为

介绍了一种元认知模块，使生成式智能体能够观察自己的思维过程和行为，从而显著提高性能并改进策略。在多种情景中进行了测试，包括求生僵尸启示录，发现我们的系统胜过其他系统，而且智能体随着时间适应并改进任务策略。

Jan, 2024