数据科学代理的基准测试

Feb, 2024

Benchmarking Data Science Agents

Yuge Zhang, Qiyang Jiang, Xingyu Han, Nan Chen, Yuqing Yang...

TL;DR在数据驱动的决策时代，数据分析的复杂性需要数据科学的高级专业知识和工具，而大型语言模型 (Large Language Models (LLMs)) 作为数据科学代理人，有望成为有益的辅助工具。本文介绍了 DSEval - 一种新颖的评估范式，以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法，我们简化了数据集准备工作，提高了评估涵盖范围，扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍，并提供了重要的见解，以指导未来领域的进展。

Abstract

In the era of data-driven decision-making, the complexity of data analysis necessitates advanced expertise and tools of data science, presenting significant challenges even for specialists. Large Language Models

data-driven decision-making data analysis large language models (llms)dseval data science lifecycle

发现论文，激发创造

InfiAgent-DABench: 数据分析任务中的代理评估

介绍了第一个专门设计用于评估 LLM-based agents 在数据分析任务中的基准测试 InfiAgent-DABench，并收集了 311 个数据分析问题和 23 个最新 LLM 的基准测试结果。

Jan, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

DS-Agent：基于案例推理的大型语言模型的自动化数据科学

DS-Agent 基于大型语言模型研究数据科学任务自动化，通过利用案例推理框架实现了任务需求理解、机器学习模型构建和训练，并通过低资源部署阶段显著降低了 LLMs 基本能力的要求，从而在性能上取得了最佳排名和显著改进。

Feb, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

DCA-Bench: 数据集整理代理的基准测试

利用大型语言模型代理，提出了一个评估数据集筛选能力的基准测试，该基准测试使用真实世界的数据集问题，并通过自动化评估器与人工评估对齐可靠，以进一步探索和创新应用大型语言模型于现实世界的数据集处理。

Jun, 2024

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

DiscoveryBench：基于大型语言模型的数据驱动发现

快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码，从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题，该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力，并为改进这些能力提供有用的资源。

Jul, 2024

基准自演进：一种用于动态 LLM 评估的多智能体框架

该研究提出了一个基准的自我演进框架，动态评估迅速发展的大型语言模型（LLMs）的能力和限制，实施基于多智能体系统的重构操作来构建演进实例，对 LLMs 进行更可扩展、稳健和细粒度的评估，并发现它们在多个任务上的性能普遍下降。

Feb, 2024

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022

数据解释器：一个用于数据科学的 LLM 代理

本研究介绍了使用大规模语言模型（LLM）为基础的 Data Interpreter，通过动态规划、工具整合和逻辑错误的识别等三种关键技术来增强数据科学中的问题解决能力，并在各种数据科学和实际任务中评估其性能，在机器学习任务中实现了显著改进，并在数学数据集中提高了 26%，在开放式任务中实现了 112% 的显著改善。

Feb, 2024