InfiAgent-DABench: 数据分析任务中的代理评估

Jan, 2024

InfiAgent-DABench: 数据分析任务中的代理评估

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Guoyin Wang...

TL;DR介绍了第一个专门设计用于评估 LLM-based agents 在数据分析任务中的基准测试 InfiAgent-DABench，并收集了 311 个数据分析问题和 23 个最新 LLM 的基准测试结果。

Abstract

In this paper, we introduce "infiagent-dabench", the first benchmark specifically designed to evaluate llm-based agents in →

infiagent-dabench benchmark llm-based agents data analysis format-prompting technique

发现论文，激发创造

数据科学代理的基准测试

在数据驱动的决策时代，数据分析的复杂性需要数据科学的高级专业知识和工具，而大型语言模型 (Large Language Models (LLMs)) 作为数据科学代理人，有望成为有益的辅助工具。本文介绍了 DSEval - 一种新颖的评估范式，以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法，我们简化了数据集准备工作，提高了评估涵盖范围，扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍，并提供了重要的见解，以指导未来领域的进展。

Feb, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

DCA-Bench: 数据集整理代理的基准测试

利用大型语言模型代理，提出了一个评估数据集筛选能力的基准测试，该基准测试使用真实世界的数据集问题，并通过自动化评估器与人工评估对齐可靠，以进一步探索和创新应用大型语言模型于现实世界的数据集处理。

Jun, 2024

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试

通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具，对现有移动代理进行全面和系统性的性能比较，以解决应用程序状态无穷和可行操作序列定义模糊的挑战。

Jun, 2024

移动贝奇：一种用于基于 LLM 的移动代理的评估基准

通过引入 103 个 API 来扩展传统的 UI 操作，结合真实用户查询和 LLMs 的扩充数据，Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准，其中包括 832 个数据输入和 200 多个任务，特别设计用于评估多应用程序协作场景，并引入了一种名为 CheckPoint 的更准确的评估指标来评估 LLM-based 移动代理在规划和推理步骤中是否达到关键点。

Jul, 2024

AgentBoard: 多轮 LLM 代理人的分析评估板

为了评估大型语言模型的能力并加快其实际应用，我们引入了 AgentBoard，一个综合性的基准测试评估框架，它不仅提供了对模型能力的深入理解，还促进了其性能的可解释性。

Jan, 2024

InjecAgent：在工具集成的大型语言模型代理中评估间接提示注入

通过引入 InjecAgent 基准测试，评估 LLM agents 对 IPI attacks 的脆弱性，结果显示 LLM agents 易受攻击，ReAct-prompted GPT-4 在 24% 的情况下易受攻击，并结合加强的黑客提示进一步提高攻击成功率，对 ReAct-prompted GPT-4 的攻击成功率几乎翻倍。

Mar, 2024

DS-Agent：基于案例推理的大型语言模型的自动化数据科学

DS-Agent 基于大型语言模型研究数据科学任务自动化，通过利用案例推理框架实现了任务需求理解、机器学习模型构建和训练，并通过低资源部署阶段显著降低了 LLMs 基本能力的要求，从而在性能上取得了最佳排名和显著改进。

Feb, 2024