迷失于逻辑:对大型语言模型在LSAT逻辑游戏中的推理能力的评估
我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的认知能力。例如,在我们的基准测试中,GPT-4的性能比GPT3-5准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试(如GSM8K)未能发现的语言模型的潜在认知缺陷,这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型,揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估LLMs时进行范式转变,而且对于关于人工通用智能(AGI)的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用,我们旨在促进对LLM真正认知能力的更准确评估。
Dec, 2023
我们引入了LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了LLM未能学好的逻辑规则。我们评估了LogicAsker在GPT-3、ChatGPT、GPT-4、Bard、Vicuna和Guanaco等主要的大型语言模型上,并展示了LogicAsker的测试用例在不同LLM中发现逻辑推理错误的比率从25%到94%不等。此外,LogicAsker的测试用例可以进一步用于设计上下文学习的演示例子,有效提高LLM的逻辑推理能力,如GPT-4提高了10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高LLM的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本研究针对大型语言模型在规则理解和执行能力评估方面的不足,提出了一个新的基准测试工具LogicGame。该工具通过多样化的游戏场景,强调依据预定义规则进行推理和规划的能力,发现了现有模型在规则基础推理方面的显著缺陷,从而推动了对其决策系统的改进。
Aug, 2024
本研究针对大型语言模型在基于规则的推理和规划能力评估不足的问题,提出了一个新颖的基准工具LogicGame。该基准通过设计含有多项规则的游戏场景,评估模型对规则理解、执行和规划的能力,研究发现许多模型在基于规则的逻辑推理方面存在显著不足,对未来的决策系统与智能体设计具有重要影响。
Aug, 2024
本研究针对大语言模型(LLMs)在基于规则的推理和计划执行能力评估的不足,提出了LogicGame基准测试。该方法通过设定多样化游戏场景,评估模型对规则的理解、执行及规划能力,并发现其在这些方面存在显著不足,具有重要的实践价值。
Aug, 2024
本研究针对当前大型语言模型(LLMs)在大学级推理评估中的不足,提出CLR-Bench,以全面评估其复杂推理能力。通过开发包括五种问题类型和专家详细解释的丰富数据集,并引入两种新指标,研究发现尽管GPT-4 turbo等最先进的LLM在直接回答预测方面表现尚可,但在同时回答问题和提供推理方面的能力急剧下降,揭示了其推理能力亟待提高的现状。
Oct, 2024
本研究针对当前大型语言模型在大学课程推理中的评估不足提出了CLR-Bench,填补了评估多选问题最终预测准确性与理解能力之间的空白。通过引入两种创新性度量标准,研究发现即使是最佳的封闭源模型(如GPT-4 turbo)在大学水平回答中表现不佳,推理能力显著不足。
Oct, 2024