Oct, 2024

ProcBench:多步骤推理和程序跟随的基准

TL;DR本研究解决了大型语言模型在推理任务中的性能限制问题。我们提出了一种新的基准,专注于多步骤推理的直接评估,通过设计明确的指令和对应问题对,来检验模型的指令遵循能力。研究发现提供的指令可显著提高大型语言模型在推理任务中的表现,为未来研究指明了方向。