关于提高语言模型推理能力的进展
通过改变输入提示的多样性,并借助多种演绎方法,我们提出的 DIV-SE 和 IDIV-SE 方法在不改变解码过程的前提下,通过多种推理调用和单次推理调用中的多样提示,在固定生成预算的情况下,在多个推理基准和最新的计划基准上,优于现有基线,并在最有挑战的 4/5 Blocksworld 任务上超过先前报告的最高准确率至少 29.6 个百分点,从而改进了 LLM 推理的准确性 - 成本权衡的帕累托前沿。
Oct, 2023
介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K,表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能,提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。
Oct, 2021
本文介绍了 DiversiGATE,一个统一的框架,它 consolodates 了 LLM 验证的各种方法,并且提出了一种符合 DiversiGATE 框架的新型 SelfLearner 模型,可以从自己的输出中学习并不断改善性能。通过实验,表明 SelfLearner 的有效性,对 GSM8K 基准测试的改进达到了 54.8%-> 61.8%。
Jun, 2023
本文提出了一种基于神经内存网络的迭代神经推理网络,使用门控机制进行推理,旨在解决多步推理中不平衡推理深度分布的问题,并将其应用于三个数据集上,实验结果表明该模型可以实现比 DeepLogic 和其他 RNN 基准模型更高的测试准确性,并在规则被洗牌时具有更好的超分布泛化能力。
Jul, 2022
大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。
Dec, 2023
本论文提出 IdealGPT 框架,通过大语言模型迭代地分解 VL 推理,以解决零样本推理领域中多步推理问题。我们的 IdealGPT 在多个具有挑战性的 VL 推理任务中表现优异,特别是在 VCR 和 SNLI-VE 中相对最好的 GPT-4 模型提高了 10%和 15%。
May, 2023
我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外,LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子,有效提高 LLM 的逻辑推理能力,如 GPT-4 提高了 10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
通过在三个领域(24 点游戏,图着色,STRIPS 规划)对 GPT-4 的表现进行实证研究,我们观察到自我评估导致性能显著下降,而外部验证则带来显著性能提升;然而,评估内容对系统性能并不重要,事实上,简单地使用一个可信的验证器重新提问可以保持大部分优势。
Feb, 2024