GameBench:评估 LLM 代理的战略推理能力
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于 LLMs 推理能力的夸张的说法,并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。
Jun, 2022
我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的认知能力。例如,在我们的基准测试中,GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试(如 GSM8K)未能发现的语言模型的潜在认知缺陷,这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型,揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变,而且对于关于人工通用智能(AGI)的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用,我们旨在促进对 LLM 真正认知能力的更准确评估。
Dec, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了 50%。
Nov, 2023
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
人工智能在许多领域取得了显著进展,类似 ChatGPT 这样的大型语言模型因其人类化的文本生成能力而受到了广泛关注。然而,空间推理仍然是这些模型面临的重大挑战。本研究通过改进 StepGame 基准测试,提供了更准确的数据集用于模型评估,并分析了 GPT 在修正后的基准测试上的空间推理性能。我们发现 GPT 在将自然语言文本映射到空间关系方面表现出了优势,但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合,提供了基准测试的完美解决方案,可以在 StepGame 上进行定性推理而不会出现任何错误。此外,我们还针对 GPT 模型在空间推理方面的局限性进行了改进,采用了连续思考和思维树提示策略,在准确性方面取得了显著的改善。我们的研究不仅揭示了模型的不足之处,还提出了增强措施,为具备更强大空间推理能力的人工智能的进展做出了贡献。
Jan, 2024
本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP,利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中,RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。
May, 2023