Jun, 2024

DISCOVERYWORLD:开发和评估自动科学发现代理的虚拟环境

TL;DR开发和评估 AI 代理的端到端科学推理能力具有挑战性,本文介绍了 DISCOVERYWORLD,这是第一个用于开发和评估代理执行完整的新颖科学发现循环能力的虚拟环境,通过包含不同挑战任务,覆盖放射性同位素约会、火箭科学和蛋白质组学等多个主题,鼓励培养一般的发现技能而非特定任务的解决方案,提供了自动度量指标来评估性能,发现在 DISCOVERYWORLD 任务中,之前在其他环境中表现良好的强基线代理却遇到了困难,这表明 DISCOVERYWORLD 捕捉到了部分新颖的发现挑战,并可能加速代理的科学发现能力的发展和评估。