元反省：利用过去反思学习语言代理的指令

May, 2024

元反省：利用过去反思学习语言代理的指令

METAREFLECTION: Learning Instructions for Language Agents using Past Reflections

Priyanshu Gupta, Shashank Kirtania, Ananya Singha, Sumit Gulwani, Arjun Radhakrishna...

TL;DR利用自我反思的模型生成语言反馈，METAREFLECTION 技术能够学习特定领域的通用提示指令并提高大型语言模型的效率。在基础设施即代码漏洞检测和问答方面，METAREFLECTION 相对于 GPT-4 表现出 16.82%（IAC）、31.33%（COT）和 15.42%（REACT）的显著改进。

Abstract

Despite the popularity of large language models (LLMs), crafting specific prompts for LLMs to perform particular tasks remains challenging. Users often engage in multiple conversational turns with an LLM-based agent to accomplish their intended task. Recent studies have demonstrated th

large language models metareflection self-reflections infrastructure as code question-answering

发现论文，激发创造

TasTe: 通过自我反思教授大型语言模型进行翻译

TasTe 框架通过自我反思的过程提出了一种新的方法，通过指导和评估生成的初步翻译，并最终提高翻译质量和大型语言模型的能力。

Jun, 2024

自我反思结果对提示构建敏感

大型语言模型通过自我反思在提高零样本和少样本推理能力方面表现出令人印象深刻的能力。我们通过首先证明自我反思的结果对提示语言敏感，例如，当明确提示查找错误时，更有可能得出错误的结论。因此，反思提示中的个别因素可能导致不必要地更改正确的反应。我们展示了自我反思文献中使用的大多数提示都容易产生偏差，并提出了构建保守识别错误的提示的不同方式。我们的研究结果强调了自我反思任务中提示工程的重要性。

Jun, 2024

当回顾不再是 20/20：大型语言模型反思思维的测试限制

最近的研究表明，自我反思的提示可以显著提高大型语言模型（LLMs）的推理能力。然而，使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力，在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧：自我反思在 TruthfulQA 中提高了性能，但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析，以阐明这些模式中的影响因素，并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响：具体而言，在模型初始答案不太可能正确和整体问题难度较高时，自我反思显示出最大的益处。我们还发现，自我反思降低了多数投票的趋势。基于我们的发现，我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。

Apr, 2024

反射增强的自我训练语言代理

Reflection-Reinforced Self-Training (Re-ReST) leverages a reflection model to refine low-quality samples and augment self-training, enhancing the quality of samples efficiently.

Jun, 2024

镜像：一种适用于知识丰富推理的多角度自省方法

提出了一种多视角自反思方法 Mirror，通过导航器和推理器之间的启发式相互作用，使 LLMs 能够从多个视角线索进行反思，从而避免陷入特定的反思迭代，实验结果表明 Mirror 在几个当代自反思方法上具有优势，并且消除了之前面临的挑战。

Feb, 2024

DUAL-REFLECT：通过双向学习反馈机制增强大型语言模型的反思翻译能力

利用双向学习的自我反思框架来提高翻译任务、增强模型的自我反思能力并改进翻译表现，特别适用于低资源语言对的翻译任务，大大提高了翻译准确性和消除了歧义。

Jun, 2024

基于基础语言模型的生成、提炼和评估激励性面谈风格的反思

将大型基础语言模型中的一种称为反思性倾听的功能，即治疗师对客户的言语进行反思处理的能力，提炼为较小的模型，并演示了使用 GPT-4 模型进行反思生成的方法，该模型通过零 - shot 提示能够接近 100% 的成功率，并能辅助精馏模型的质量评估。

Feb, 2024

LLM 代理人中的自我反思对问题解决能力的影响

研究调查了自我反思对大型语言模型（LLMs）在问题解决性能上的影响，结果表明 LLM 代理能够通过自我反思显著提高问题解决性能，此外，对比了各种类型的自我反思以确定它们对性能的个体贡献。

May, 2024

Reflexion：具备动态记忆和自我反思能力的自主智能体

Reflexion is a new decision-making approach enhanced with dynamic memory and self-reflection capabilities to complete tasks, including knowledge-intensive search-based question-and-answer tasks in HotPotQA environments, and achieves automation with a heuristic that enables the agent to pinpoint hallucination instances, among other things.

Mar, 2023

关于替代解决路径的生成情境反思触发器的研究：以计算机支持协同学习的生成人工智能为例

大语言模型（LLMs）的一个优点是它们的情境化能力 —— 根据学生的输入（如解决方案策略或前期讨论）提供不同的回应，以更好地让学生参与其中。我们提出了一个概念验证的 LLM 应用的设计和评估，以为学生提供动态和情境化的反馈。具体来说，我们在一个大学级别的云计算课程的在线编程练习机器人中加入了 ChatGPT，它在数据库设计的协作查询优化任务中为学生提供情境化的反思触发点。我们展示了 LLMs 可以用于生成高度情境化的反思触发器，这些触发器结合了上下文中正在进行的协作讨论的详细信息。我们详细讨论了触发器设计空间的探索以及其与学习目标的对应关系，以及在一项涉及 34 名学生的试点研究中对学生学习的影响。

Apr, 2024