大型语言模型是否能够推理和规划?
本文探讨了自我纠错在大型语言模型中的作用和效果,发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应,在某些情况下,性能甚至可能在自我纠正后下降。基于这些发现,提出了未来研究和实际应用的建议。
Oct, 2023
几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统,发现自我批评似乎削弱了计划生成的性能,并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响,二进制或详细反馈对计划生成几乎没有影响。总体而言,这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。
Oct, 2023
本文研究大型语言模型在处理自然语言推理任务上的表现,并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性,结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。
May, 2023
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
Feb, 2023
通过在三个领域(24 点游戏,图着色,STRIPS 规划)对 GPT-4 的表现进行实证研究,我们观察到自我评估导致性能显著下降,而外部验证则带来显著性能提升;然而,评估内容对系统性能并不重要,事实上,简单地使用一个可信的验证器重新提问可以保持大部分优势。
Feb, 2024
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于 LLMs 推理能力的夸张的说法,并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。
Jun, 2022
本文旨在研究 LLLms 在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估 LLMs 在自主规划和启发式两种不同模式下的表现,发现 LLMs 在自主规划方面的表现非常有限,但在启发式模式下,LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
May, 2023
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与 GPT-4 基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024