基于理据意识的答案验证与成对自我评估

Oct, 2024

基于理据意识的答案验证与成对自我评估

Rationale-Aware Answer Verification by Pairwise Self-Evaluation

Akira Kawabata, Saku Sugawara

TL;DR本研究针对现有答案验证方法中忽视理据有效性的问题，提出了一种新的验证策略。通过引入REPS方法，有效地从候选答案中选择有效理据，显著提高了基于正确理据训练的验证器的性能。研究结果表明，确保理据的有效性对构建可靠的答案验证器至关重要，尤其是在支持人类解决复杂推理任务时。

Abstract

Answer Verification identifies correct solutions among candidates generated by Large Language Models (LLMs). Current approaches typically train verifier models by labeling solutions as correct or incorrect based

发现论文，激发创造

使用大型语言模型进行可解释的逻辑推理的Selection-Inference方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过fine-tuning在多个任务上达到了SOTA水平。

Oct, 2022

具有合理性的语言模型

在大型语言模型中添加一个反思层次，通过构建信念图和使用形式化的约束推理器，从而减少其答案与其他“信念”的依赖关系和不一致性，REFLEX方法可以改善一定程度的一致性，同时不降低模型的答案准确性。

May, 2023

多重奖励提炼的个性化自盈利者设计

该论文介绍了一种名为MaRio的算法，该算法可以使规模较小的语言模型（约为GPT-3的1/200）生成合理、多样且一致的自我理解解释，从而提高问题回答的准确性和自我理解质量，并通过人工评估验证了MaRio方案的可行性。

Nov, 2023

提升小型多模态推理模型的能力以与更大的模型相匹配：自一致性训练

多模态推理中，理由生成对模型推理的准确性至关重要，本文提出了MC-CoT，一种通过自相容性训练策略生成多个理由和答案，并通过投票选择最准确的方法，从而提高生成的理由的质量，改进多模态推理的准确性和鲁棒性。

Nov, 2023

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与GPT-4基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

大型语言模型可轻松自我修正

大型语言模型(LLMs)的内在自我纠正能力受到了研究，然而，通过掩盖问题中的关键条件，添加当前答案构建验证问题，并预测条件以验证答案的简单但有效的验证方法，提出了逐步识别和纠正可能的错误响应的迭代验证-纠正框架，命名为ProCo。与自我纠正相比，ProCo在三种推理任务中的性能明显提高。

May, 2024

CLR-Fact：评估大语言模型在事实知识上的复杂逻辑推理能力

本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准，我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外，我们揭示了模型在集合并运算方面表现良好，但在集合交集运算方面面临重大挑战，这对于逻辑推理至关重要。

Jul, 2024

通过协作验证扩展推理计算来改善大语言模型推理

本研究解决了大语言模型在复杂任务（如数学和代码推理）中一致性和准确性不足的问题。通过生成多个推理路径并引入验证器评估和排序输出的正确性，提出了一种新的协作方法结合了逐步推理和可执行程序推理。实验结果表明，该方法显著提升了推理验证的准确性和可靠性，潜在地推动了现有大语言模型的性能。

Oct, 2024

通过加权推理增强语言模型推理能力

本研究针对大型语言模型在推理任务中表现不佳的问题，提出了一种改进的自一致性框架，旨在加强模型的推理能力。通过将多条推理路径的详细分析与最终决策结合，该方法显著提高了复杂推理任务中的模型性能和推理路径的可靠性。

Oct, 2024