基于理据意识的答案验证与成对自我评估
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
在大型语言模型中添加一个反思层次,通过构建信念图和使用形式化的约束推理器,从而减少其答案与其他“信念”的依赖关系和不一致性,REFLEX方法可以改善一定程度的一致性,同时不降低模型的答案准确性。
May, 2023
该论文介绍了一种名为MaRio的算法,该算法可以使规模较小的语言模型(约为GPT-3的1/200)生成合理、多样且一致的自我理解解释,从而提高问题回答的准确性和自我理解质量,并通过人工评估验证了MaRio方案的可行性。
Nov, 2023
多模态推理中,理由生成对模型推理的准确性至关重要,本文提出了MC-CoT,一种通过自相容性训练策略生成多个理由和答案,并通过投票选择最准确的方法,从而提高生成的理由的质量,改进多模态推理的准确性和鲁棒性。
Nov, 2023
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与GPT-4基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024
大型语言模型(LLMs)的内在自我纠正能力受到了研究,然而,通过掩盖问题中的关键条件,添加当前答案构建验证问题,并预测条件以验证答案的简单但有效的验证方法,提出了逐步识别和纠正可能的错误响应的迭代验证-纠正框架,命名为ProCo。与自我纠正相比,ProCo在三种推理任务中的性能明显提高。
May, 2024
本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准,我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外,我们揭示了模型在集合并运算方面表现良好,但在集合交集运算方面面临重大挑战,这对于逻辑推理至关重要。
Jul, 2024
本研究解决了大语言模型在复杂任务(如数学和代码推理)中一致性和准确性不足的问题。通过生成多个推理路径并引入验证器评估和排序输出的正确性,提出了一种新的协作方法结合了逐步推理和可执行程序推理。实验结果表明,该方法显著提升了推理验证的准确性和可靠性,潜在地推动了现有大语言模型的性能。
Oct, 2024
本研究针对大型语言模型在推理任务中表现不佳的问题,提出了一种改进的自一致性框架,旨在加强模型的推理能力。通过将多条推理路径的详细分析与最终决策结合,该方法显著提高了复杂推理任务中的模型性能和推理路径的可靠性。
Oct, 2024