Dec, 2023

挑战 LLMs 的推理能力:揭示 LLMs 中的认知深度的基准测试

TL;DR我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的认知能力。例如,在我们的基准测试中,GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试(如 GSM8K)未能发现的语言模型的潜在认知缺陷,这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型,揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变,而且对于关于人工通用智能(AGI)的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用,我们旨在促进对 LLM 真正认知能力的更准确评估。