Apr, 2025

S1-Bench:评估大型推理模型系统1思维能力的简单基准

TL;DR本研究针对当前大型推理模型(LRMs)在简单任务中系统1思维能力的评估缺乏基准的问题,提出了S1-Bench,一个多领域和多语言的问题集。通过对22个LRMs的评估,发现它们在简单任务中的效率明显低下,显示出目前LRMs在思维平衡和任务复杂性适应性方面的不足,从而需要进一步的发展。