再问一次：自我一致性提升（几乎）所有情境下的语言模型推理能力

Nov, 2023

再问一次：自我一致性提升（几乎）所有情境下的语言模型推理能力

Ask One More Time: Self-Agreement Improves Reasoning of Language Models in (Almost) All Scenarios

Lei Lin, Jiayi Fu, Pengli Liu, Junchen Wan, Fuzheng Zhang...

TL;DR通过自一致性和自一致性来解决链式思考提示中的贪婪解码的问题，并提出了自一致性的方法，它能够在几乎所有场景中得到优化，同时在六个公开推理基准中表现出显著的性能和卓越的普适性。

Abstract

Although chain-of-thought (CoT) prompting combined with language models has achieved encouraging results on complex reasoning tasks, the naive greedy decoding used in CoT prompting usually causes the repetitiveness and local optimality. To address this shortcoming, ensemble-optimization

chain-of-thought prompting ensemble-optimization self-consistency self-agreement generalization capabilities

发现论文，激发创造

自洽性提高语言模型的思维连贯性推理能力

本文提出了一种新的解码策略 self-consistency 来替代自我解释式激励中的贪心解码，从而在多种常识推理基准测试中提高其性能。

Mar, 2022

自我打磨：通过问题优化增强大型语言模型的推理能力

该研究提出了一种名为 Self-Polish 的新方法，旨在通过引导模型逐步精炼给定的问题，以提高其问题解决能力，与其他提示方法正交，有效地提高了针对不同数据集的 Few-Shot 学习和 CoT 模型的表现。

May, 2023

大型语言模型生成的通用自一致性

利用大型语言模型采样的多个推理路径，结合自我一致性和链式思维提示，在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法（USC），它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中，USC 有效利用多个样本并提高了性能。对于数学推理，USC 在不要求答案格式相似的情况下，达到了标准自我一致性的性能。最后，在无法访问执行结果的情况下，USC 也达到了代码生成中基于执行的投票性能。

Nov, 2023

自主链式思维对于面向开放域多跳推理的大型语言模型

在这篇文章中，我们提出了自主启发式链式思考 (SP-CoT) 自动化框架，用于大规模生成高质量的多跳推理数据集并通过上下文学习实现自主启发式推理，实验证明 SP-CoT 在大规模和小规模语言模型上的性能均显著优于前沿方法，并能在中间步骤中召回约 50% 的中间答案。

Oct, 2023

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

自我协议：微调语言模型以寻求不同意见的一致性

本文提出了一种名为 Self-Agreement 的新框架，该框架利用由大型语言模型生成的数据来自主找到多种意见之间的一致性，通过 fine-tuning 模型，比 GPT-3 具有更高的识别多种意见之间一致性的性能，并且只需要 GPT-3 的 1/25 的参数。

May, 2023

通过思维树增强跨语言多步推理

本研究通过一种自洽的跨语言提示机制，提出了一种跨语言多步推理方法，可以在不同语言中实现多步推理路径，从而达到解决复杂推理任务的目的，并在实验评估中表现出比现有提示方法更优的性能。

Nov, 2023

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

大型语言模型作为类比推理者

通过模拟推理为大型语言模型自动生成相关样本或知识的新提示方法在各种推理任务中表现优于零示范的链式思考提示和人工少量示范的链式思考，包括 GSM8K 和 MATH 中的数学问题解决、Codeforces 中的代码生成和 BIG-Bench 中的其他推理任务。

Oct, 2023