Sep, 2024

DSBench:数据科学智能体离成为数据科学专家还有多远?

TL;DR本研究针对现有数据科学基准与真实应用之间的差距进行了探索,提出了DSBench,一个包含真实任务的综合基准。DSBench通过涵盖长上下文和 multimodal 任务背景等特性,更加真实地评估数据科学智能体的能力,研究表明当前最先进的智能体在数据分析任务中表现不佳,仅解决了34.12%的任务,这凸显了进一步提升数据科学智能体实际能力的必要性。