Sep, 2024

CORE-Bench:通过计算可复现性代理基准提升已发表研究的可信度

TL;DR本研究针对科学研究中的计算可复现性问题,通过引入CORE-Bench基准来评估AI代理在此关键任务上的准确性。该基准提供了270个任务,涵盖计算机科学、社会科学和医学等领域,评估结果显示现有代理在最具挑战性的任务上仅达21%的准确率,强调了改进的巨大空间。这项工作有助于提升科学研究的可复现性,并推动未来研究代理的开发。