Spider2-V: 多模态智能体距离自动化数据科学与工程工作流有多远？

Jul, 2024

Spider2-V: 多模态智能体距离自动化数据科学与工程工作流有多远？

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu...

TL;DR介绍了Spider2-V，第一个专注于职业数据科学和工程工作流程的多模态代理基准，它由494个真实世界任务组成，评估了多模态代理在数据相关任务中的能力，并提供了企业级软件系统的综合文档。

Abstract

data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understand

发现论文，激发创造

DS-Agent：基于案例推理的大型语言模型的自动化数据科学

DS-Agent基于大型语言模型研究数据科学任务自动化，通过利用案例推理框架实现了任务需求理解、机器学习模型构建和训练，并通过低资源部署阶段显著降低了LLMs基本能力的要求，从而在性能上取得了最佳排名和显著改进。

Feb, 2024

OmniACT：实现桌面和网络的多模态通用自主代理的数据集和基准

通过使用OmniACT数据集和基准测试，该研究介绍了评估代理程序生成可执行计算机任务的能力的一种新方法，并展示了当前最强的基线语言模型代理（GPT-4）在该基准测试中表现最好。然而，与人类能力相比，它仅达到15％，这突显了传统网络代理在生成可完成任务的可执行脚本方面的挑战。该基准测试为衡量和评估语言模型代理在自动化计算机任务方面的进展提供了平台，并激励未来研究努力构建大型语言模型和计算机屏幕的视觉基础的多模态模型。

Feb, 2024

数据解释器：一个用于数据科学的LLM代理

本研究介绍了使用大规模语言模型（LLM）为基础的Data Interpreter，通过动态规划、工具整合和逻辑错误的识别等三种关键技术来增强数据科学中的问题解决能力，并在各种数据科学和实际任务中评估其性能，在机器学习任务中实现了显著改进，并在数学数据集中提高了26%，在开放式任务中实现了112%的显著改善。

Feb, 2024

WorkArena: Web代理在解决常见知识工作任务方面有多大能力？

使用基于大型语言模型的代理程序研究通过 web 浏览器与软件的交互。通过提出基于 ServiceNow 平台的 29 个任务的远程托管基准 WorkArena，以及设计和评估此类代理程序的环境 BrowserGym，我们对其性能进行了实证评估，发现目前代理程序在工作区域上有一些潜力，但在实现完全的任务自动化方面还存在相当大的差距。尤其值得注意的是，我们的分析揭示了开源和闭源 LLM（大型语言模型）之间的显著性能差异，突出了该领域未来研究和发展的重要方向。

Mar, 2024

OSWorld: 多模态代理在真实计算机环境中的开放式任务评测

通过引入OSWorld，我们创建了一个包含369个计算机任务的基准，以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在OSWorld上进行的全面评估为开发多模态通用代理提供了宝贵的洞见，这是以前的基准测试无法实现的。

Apr, 2024

AutoFlow：大型语言模型代理自动生成工作流

自然语言工作流自动化生成框架AutoFlow可通过基于微调和基于上下文的方法，为大型语言模型和基于语言模型的人工智能代理生成可靠且鲁棒的工作流，为解决复杂任务提供了一种有前景的方法。

Jul, 2024

从大型语言模型到基于大型语言模型的软件工程代理：当前挑战和未来展望的综述

本研究解决了大型语言模型（LLMs）与基于LLMs的代理之间的区别不明确的问题。通过对软件工程中LLMs和LLM-based代理的应用进行广泛调查，论文总结了六个关键主题，并对它们的效果和应用进行了全面分析。研究结果为推动软件工程中基于LLMs的代理的未来研究提供了重要思路。

Aug, 2024

Windows代理竞技场：大规模评估多模态操作系统代理

本研究针对现有评估工具在真实环境中应用的局限性，提出了Windows代理竞技场，这是一种 reproducible 的通用环境，专注于Windows操作系统，支持多个任务的评估。创新性地开发超过150个多样化任务，并引入了新的多模态代理Navi，显著提高了评估的效率，为未来的代理开发和数据生成开辟了新的研究机会。

Sep, 2024

DSBench：数据科学智能体离成为数据科学专家还有多远？

本研究针对现有数据科学基准与真实应用之间的差距进行了探索，提出了DSBench，一个包含真实任务的综合基准。DSBench通过涵盖长上下文和 multimodal 任务背景等特性，更加真实地评估数据科学智能体的能力，研究表明当前最先进的智能体在数据分析任务中表现不佳，仅解决了34.12%的任务，这凸显了进一步提升数据科学智能体实际能力的必要性。

Sep, 2024

Windows代理竞技场：大规模评估多模态操作系统代理

本研究解决了在真实环境中评估计算机代理表现的挑战，包括现有基准测试的限制及其评估速度缓慢的问题。通过引入Windows代理竞技场，我们提供一个专注于Windows操作系统的可重复环境，创建了150多个多样化任务，旨在提高代理的规划和工具使用能力，这一评估方法可在20分钟内完成完整测试。最显著的发现是新代理Navi在Windows领域的成功率为19.5%，比无辅助人类低，但在Web基准Mind2Web上表现良好，展示了该领域未来研究的潜力。

Sep, 2024