自洽性提高语言模型的思维连贯性推理能力

ICLRMar, 2022

自洽性提高语言模型的思维连贯性推理能力

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi...

TL;DR本文提出了一种新的解码策略 self-consistency 来替代自我解释式激励中的贪心解码，从而在多种常识推理基准测试中提高其性能。

Abstract

chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propose a new decoding strategy, →

chain-of-thought prompting pre-trained large language models self-consistency reasoning paths commonsense reasoning

发现论文，激发创造

再问一次：自我一致性提升（几乎）所有情境下的语言模型推理能力

通过自一致性和自一致性来解决链式思考提示中的贪婪解码的问题，并提出了自一致性的方法，它能够在几乎所有场景中得到优化，同时在六个公开推理基准中表现出显著的性能和卓越的普适性。

Nov, 2023

大型语言模型生成的通用自一致性

利用大型语言模型采样的多个推理路径，结合自我一致性和链式思维提示，在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法（USC），它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中，USC 有效利用多个样本并提高了性能。对于数学推理，USC 在不要求答案格式相似的情况下，达到了标准自我一致性的性能。最后，在无法访问执行结果的情况下，USC 也达到了代码生成中基于执行的投票性能。

Nov, 2023

自我打磨：通过问题优化增强大型语言模型的推理能力

该研究提出了一种名为 Self-Polish 的新方法，旨在通过引导模型逐步精炼给定的问题，以提高其问题解决能力，与其他提示方法正交，有效地提高了针对不同数据集的 Few-Shot 学习和 CoT 模型的表现。

May, 2023

开放式生成的自我一致性

本文介绍了一个新的方法，通过扩展自一致性的应用范围并使用轻量级无参数相似函数，改善了大规模预训练语言模型生成的质量和一致性，包括代码生成、自动格式化和文本摘要任务。

Jul, 2023

链式思考引导大型语言模型推理

通过 chain of thought prompting 方法，在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能，甚至超过 fine-tuned GPT-3。

Jan, 2022

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将 LLMs 自我评估的潜力展现出来。

May, 2024

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

逃离高昂成本：多步推理的早停自一致性

我们提出了一种简单且可扩展的采样过程 ESC，用于减少 Self-consistency 的成本，并在不牺牲性能的情况下动态选择性能成本平衡的控制方案。通过在算术、常识和符号推理任务上进行实验证明，ESC 显著降低了链式思维推理的平均采样数量，同时具有可比性的性能。

Jan, 2024

无需提示的逻辑链推理

大规模语言模型的推理能力可通过修改解码过程有效地引出连续推理路径，而不需要手动设计提示技术，这种具备内在推理能力的解码方法优于传统贪婪解码方式。

Feb, 2024

对比的思维链路提示

我们提出了对比思维链来增强语言模型推理，通过提供有效和无效的推理示范，引导模型逐步推理并减少推理错误。在推理基准测试中，对比思维链能够作为思维链提示的一种普遍增强。

Nov, 2023