自我反思结果对提示构建敏感

Jun, 2024

Self-Reflection Outcome is Sensitive to Prompt Construction

Fengyuan Liu, Nouar AlDahoul, Gregory Eady, Yasir Zaki, Bedoor AlShebli...

TL;DR大型语言模型通过自我反思在提高零样本和少样本推理能力方面表现出令人印象深刻的能力。我们通过首先证明自我反思的结果对提示语言敏感，例如，当明确提示查找错误时，更有可能得出错误的结论。因此，反思提示中的个别因素可能导致不必要地更改正确的反应。我们展示了自我反思文献中使用的大多数提示都容易产生偏差，并提出了构建保守识别错误的提示的不同方式。我们的研究结果强调了自我反思任务中提示工程的重要性。

Abstract

large language models (LLMs) demonstrate impressive zero-shot and few-shot reasoning capabilities. Some propose that such capabilities can be improved through self-reflection, i.e., letting LLMs reflect on their

large language models self-reflection prompt wording response correction prompt engineering

发现论文，激发创造

当回顾不再是 20/20：大型语言模型反思思维的测试限制

最近的研究表明，自我反思的提示可以显著提高大型语言模型（LLMs）的推理能力。然而，使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力，在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧：自我反思在 TruthfulQA 中提高了性能，但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析，以阐明这些模式中的影响因素，并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响：具体而言，在模型初始答案不太可能正确和整体问题难度较高时，自我反思显示出最大的益处。我们还发现，自我反思降低了多数投票的趋势。基于我们的发现，我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。

Apr, 2024

自我对比：更好的反射通过不一致的解决视角

我们提出了一种基于自对照的策略，通过适应性地探索多样的解决观点、对比差异并总结出这些差异的清单，为大型语言模型增添了多样的视角，以减轻固执偏见，并且更准确和稳定地进行反思。

Jan, 2024

LLM 代理人中的自我反思对问题解决能力的影响

研究调查了自我反思对大型语言模型（LLMs）在问题解决性能上的影响，结果表明 LLM 代理能够通过自我反思显著提高问题解决性能，此外，对比了各种类型的自我反思以确定它们对性能的个体贡献。

May, 2024

大型语言模型是否擅长优化提示？

通过细致研究 LLM-based Automatic Prompt Optimization 的机制，发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见，难以正确识别错误的真正原因；此外，LLM 优化器在语义上有效的反思时，由于目标模型行为的难以预测性，往往在单次优化步骤中难以生成适当的提示。因此我们提出了 “Automatic Behavior Optimization” 新范式，以更可控的方式直接优化目标模型的行为，希望本研究能启发自动提示优化的新方向。

Feb, 2024

元反省：利用过去反思学习语言代理的指令

利用自我反思的模型生成语言反馈，METAREFLECTION 技术能够学习特定领域的通用提示指令并提高大型语言模型的效率。在基础设施即代码漏洞检测和问答方面，METAREFLECTION 相对于 GPT-4 表现出 16.82%（IAC）、31.33%（COT）和 15.42%（REACT）的显著改进。

May, 2024

镜像：一种适用于知识丰富推理的多角度自省方法

提出了一种多视角自反思方法 Mirror，通过导航器和推理器之间的启发式相互作用，使 LLMs 能够从多个视角线索进行反思，从而避免陷入特定的反思迭代，实验结果表明 Mirror 在几个当代自反思方法上具有优势，并且消除了之前面临的挑战。

Feb, 2024

信心的重要性：重审大型语言模型的内在自我纠正能力

研究综合调查了大型语言模型（LLM）的内在自我修正能力，并提出了一种基于 “confidence” 的 “If-or-Else” 提示框架，以帮助提升自我修正能力的准确性。

Feb, 2024

TasTe: 通过自我反思教授大型语言模型进行翻译

TasTe 框架通过自我反思的过程提出了一种新的方法，通过指导和评估生成的初步翻译，并最终提高翻译质量和大型语言模型的能力。

Jun, 2024

利用自反论辩教授 LLM 学生表达自信

使用先进的 SaySelf 训练框架，通过自动总结知识不确定性以及分析不一致性，教导大语言模型表达更准确的细粒度置信度评估，并通过强化学习和奖励机制校准置信度估计，降低校准错误并保持任务性能。

May, 2024

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023