当回顾不再是 20/20：大型语言模型反思思维的测试限制

ACLApr, 2024

当回顾不再是 20/20：大型语言模型反思思维的测试限制

When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models

Yanhong Li, Chenghao Yang, Allyson Ettinger

TL;DR最近的研究表明，自我反思的提示可以显著提高大型语言模型（LLMs）的推理能力。然而，使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力，在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧：自我反思在 TruthfulQA 中提高了性能，但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析，以阐明这些模式中的影响因素，并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响：具体而言，在模型初始答案不太可能正确和整体问题难度较高时，自我反思显示出最大的益处。我们还发现，自我反思降低了多数投票的趋势。基于我们的发现，我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。

Abstract

Recent studies suggest that self-reflective prompting can significantly enhance the reasoning capabilities of large language models (LLMs)

self-reflective prompting reasoning capabilities large language models self-reflection question difficulty

发现论文，激发创造

自我反思结果对提示构建敏感

大型语言模型通过自我反思在提高零样本和少样本推理能力方面表现出令人印象深刻的能力。我们通过首先证明自我反思的结果对提示语言敏感，例如，当明确提示查找错误时，更有可能得出错误的结论。因此，反思提示中的个别因素可能导致不必要地更改正确的反应。我们展示了自我反思文献中使用的大多数提示都容易产生偏差，并提出了构建保守识别错误的提示的不同方式。我们的研究结果强调了自我反思任务中提示工程的重要性。

Jun, 2024

自我对比：更好的反射通过不一致的解决视角

我们提出了一种基于自对照的策略，通过适应性地探索多样的解决观点、对比差异并总结出这些差异的清单，为大型语言模型增添了多样的视角，以减轻固执偏见，并且更准确和稳定地进行反思。

Jan, 2024

镜像：一种适用于知识丰富推理的多角度自省方法

提出了一种多视角自反思方法 Mirror，通过导航器和推理器之间的启发式相互作用，使 LLMs 能够从多个视角线索进行反思，从而避免陷入特定的反思迭代，实验结果表明 Mirror 在几个当代自反思方法上具有优势，并且消除了之前面临的挑战。

Feb, 2024

LLM 代理人中的自我反思对问题解决能力的影响

研究调查了自我反思对大型语言模型（LLMs）在问题解决性能上的影响，结果表明 LLM 代理能够通过自我反思显著提高问题解决性能，此外，对比了各种类型的自我反思以确定它们对性能的个体贡献。

May, 2024

元反省：利用过去反思学习语言代理的指令

利用自我反思的模型生成语言反馈，METAREFLECTION 技术能够学习特定领域的通用提示指令并提高大型语言模型的效率。在基础设施即代码漏洞检测和问答方面，METAREFLECTION 相对于 GPT-4 表现出 16.82%（IAC）、31.33%（COT）和 15.42%（REACT）的显著改进。

May, 2024

关于大型语言模型在推理和规划任务上的自验证局限性

通过在三个领域（24 点游戏，图着色，STRIPS 规划）对 GPT-4 的表现进行实证研究，我们观察到自我评估导致性能显著下降，而外部验证则带来显著性能提升；然而，评估内容对系统性能并不重要，事实上，简单地使用一个可信的验证器重新提问可以保持大部分优势。

Feb, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

DUAL-REFLECT：通过双向学习反馈机制增强大型语言模型的反思翻译能力

利用双向学习的自我反思框架来提高翻译任务、增强模型的自我反思能力并改进翻译表现，特别适用于低资源语言对的翻译任务，大大提高了翻译准确性和消除了歧义。

Jun, 2024

超越答案所学：基于反思的数学推理语言模型训练

监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强，通过嵌入问题反思来培养更深入的问题理解，从而不仅提高在标准场景下的性能，还在需要反思性思考的复杂场景中发挥作用。

Jun, 2024

TasTe: 通过自我反思教授大型语言模型进行翻译

TasTe 框架通过自我反思的过程提出了一种新的方法，通过指导和评估生成的初步翻译，并最终提高翻译质量和大型语言模型的能力。

Jun, 2024