Dec, 2023

NPHardEval: 复杂类别下大型语言模型推理能力的动态评估基准

TL;DR本研究引入了一个名为NPHardEval的新基准,旨在评估大型语言模型(LLMs)的推理能力。通过比较LLMs在复杂类别上的表现,提供了对LLMs推理能力的客观且严格的观点。此基准通过900个算法问题的广泛谱系评估LLMs的推理能力,从NP-Hard复杂类别扩展到以下较低的复杂类别,并通过每月更新数据点来减轻LLMs过拟合的风险,促进更准确可靠的能力评估。