Jul, 2024

Spider2-V: 多模态智能体距离自动化数据科学与工程工作流有多远?

TL;DR介绍了Spider2-V,第一个专注于职业数据科学和工程工作流程的多模态代理基准,它由494个真实世界任务组成,评估了多模态代理在数据相关任务中的能力,并提供了企业级软件系统的综合文档。