Oct, 2024
ScienceAgentBench:迈向对语言智能体在数据驱动科学发现中的严格评估
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for
Data-Driven Scientific Discovery
TL;DR本研究旨在解决语言智能体在完全自动化科学发现中的能力不足问题,并提出了ScienceAgentBench作为评估这一能力的新基准。研究发现,当前的语言智能体在科学工作流程中仅能独立解决32.4%的任务,这凸显了其在进行数据驱动发现时的局限性和改进需求。