DSBench：数据科学智能体离成为数据科学专家还有多远？

Sep, 2024

DSBench：数据科学智能体离成为数据科学专家还有多远？

DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?

Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu...

TL;DR本研究针对现有数据科学基准与真实应用之间的差距进行了探索，提出了DSBench，一个包含真实任务的综合基准。DSBench通过涵盖长上下文和 multimodal 任务背景等特性，更加真实地评估数据科学智能体的能力，研究表明当前最先进的智能体在数据分析任务中表现不佳，仅解决了34.12%的任务，这凸显了进一步提升数据科学智能体实际能力的必要性。

Abstract

Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) have demonstrated impressive language/vision reasoning abilities, igniting the recent trend of building agents for targeted applications such as shopping assistants or AI software engineers. Recently, many

发现论文，激发创造

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估LLMs作为代理的推理和决策能力，显示出商业LLMs和开源竞争对手之间的性能差距。

Aug, 2023

评估大型语言模型作为人工智能研究代理agent

我们提出了一种基于LLM的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了MLAgentBench来评估这些代理的性能与效率。

Oct, 2023

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进LLM在任务自动化中的发展。为此，我们引入了TaskBench来评估LLM在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了TaskEval来从任务分解、工具调用和参数预测等不同方面评估LLM的能力。实验结果表明，TaskBench能够有效地反映LLM在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench相对于人工评估具有高一致性，可以作为LLM-based自主代理的全面而可靠的基准。

Nov, 2023

InfiAgent-DABench: 数据分析任务中的代理评估

介绍了第一个专门设计用于评估LLM-based agents在数据分析任务中的基准测试InfiAgent-DABench，并收集了311个数据分析问题和23个最新LLM的基准测试结果。

Jan, 2024

数据科学代理的基准测试

在数据驱动的决策时代，数据分析的复杂性需要数据科学的高级专业知识和工具，而大型语言模型(Large Language Models (LLMs))作为数据科学代理人，有望成为有益的辅助工具。本文介绍了DSEval - 一种新颖的评估范式，以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法，我们简化了数据集准备工作，提高了评估涵盖范围，扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍，并提供了重要的见解，以指导未来领域的进展。

Feb, 2024

DS-Agent：基于案例推理的大型语言模型的自动化数据科学

DS-Agent基于大型语言模型研究数据科学任务自动化，通过利用案例推理框架实现了任务需求理解、机器学习模型构建和训练，并通过低资源部署阶段显著降低了LLMs基本能力的要求，从而在性能上取得了最佳排名和显著改进。

Feb, 2024

数据解释器：一个用于数据科学的LLM代理

本研究介绍了使用大规模语言模型（LLM）为基础的Data Interpreter，通过动态规划、工具整合和逻辑错误的识别等三种关键技术来增强数据科学中的问题解决能力，并在各种数据科学和实际任务中评估其性能，在机器学习任务中实现了显著改进，并在数学数据集中提高了26%，在开放式任务中实现了112%的显著改善。

Feb, 2024

数据代理：评估大型语言模型对无标注、自然语言查询的回答能力

评估了OpenAI的GPT-3.5作为一种“语言数据科学家”(LDS)的能力，通过评估其在多个标准上的性能，包括与诸如NumPy、Pandas、Scikit-Learn和TensorFlow等库相关的数据科学代码生成任务，证明了利用大型语言模型进行低级、零样本数据分析的巨大潜力。

Mar, 2024

DCA-Bench: 数据集整理代理的基准测试

利用大型语言模型代理，提出了一个评估数据集筛选能力的基准测试，该基准测试使用真实世界的数据集问题，并通过自动化评估器与人工评估对齐可靠，以进一步探索和创新应用大型语言模型于现实世界的数据集处理。

Jun, 2024

Spider2-V: 多模态智能体距离自动化数据科学与工程工作流有多远？

介绍了Spider2-V，第一个专注于职业数据科学和工程工作流程的多模态代理基准，它由494个真实世界任务组成，评估了多模态代理在数据相关任务中的能力，并提供了企业级软件系统的综合文档。

Jul, 2024