MuSR: 对多步软推理进行思维链限制的测试
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
为了评估大型语言模型在人类式的多步逻辑推理方面的能力,我们提出了一种综合评估数据集 Multi-LogiEval,该数据集囊括了多步逻辑推理、各种推理规则和深度,并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明,随着推理步骤 / 深度的增加,语言模型的性能显著下降(在深度为 1 时平均准确率约为 68%,深度为 5 时约为 43%)。我们相信 Multi-LogiEval 将有助于以后评估和提升大型语言模型的逻辑推理能力。
Jun, 2024
我们提出了 MMLU-SR,这是一个新颖的数据集,旨在通过在问题回答任务中使用修改后的术语挑战大型语言模型(LLMs)的性能来测量其真实的理解能力。尽管最近流行的 LLMs 在 MMLU 排行榜上获得了高分,但我们发现在这种替换后模型的性能大幅下降,暗示了其理解能力较差。这个新的基准提供了一个严格测试真实模型理解能力的基准,并向广大科学界提出了挑战。
Jun, 2024
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024
大型语言模型在多语言结构推理和解释数据集 xSTREET 上表现出进展,通过使用机器翻译增强具有多语言评论的代码数据集,以及在推理时使用包含逐步代码原语的提示结构,提供了改善多语言性能的两种方法。
Mar, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本文提出 DSR-LM 框架,通过符号编程实现不同 iable 符号推理框架,其中预训练的语言模型控制事实知识的感知,符号模块执行演绎推理,并改进了 LMs 的逻辑推理能力,结果表明其在推理基准测试中的精度提高了 20% 以上。
May, 2023
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成,我们在 4 种不同类型的推理任务上评估了我们的方法,涵盖了共计 9 个不同的数据集。实验证明,我们的方法始终优于基准生成,并且在 9 个数据集中的 6 个数据集中,优于最佳的 N 个采样方法。
Apr, 2024
我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。
Nov, 2023
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022