Jun, 2024

MR-BEN: 大型语言模型的综合元推理基准

TL;DR大型语言模型在问题解决和决策方面表现出越来越强的能力,但评估其推理能力变得越来越具挑战性。为了解决这个问题,我们提出了一个基于过程的 MR-BEN 基准,要求语言模型在自动生成的推理步骤中找出并分析潜在的错误,通过这个基准,我们确定了当前语言模型的一些有趣限制和弱点。