InfiAgent-DABench: 数据分析任务中的代理评估
在数据驱动的决策时代,数据分析的复杂性需要数据科学的高级专业知识和工具,而大型语言模型 (Large Language Models (LLMs)) 作为数据科学代理人,有望成为有益的辅助工具。本文介绍了 DSEval - 一种新颖的评估范式,以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法,我们简化了数据集准备工作,提高了评估涵盖范围,扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍,并提供了重要的见解,以指导未来领域的进展。
Feb, 2024
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
利用大型语言模型代理,提出了一个评估数据集筛选能力的基准测试,该基准测试使用真实世界的数据集问题,并通过自动化评估器与人工评估对齐可靠,以进一步探索和创新应用大型语言模型于现实世界的数据集处理。
Jun, 2024
我们提出了一种基于 LLM 的研究代理的研究,该代理可以在机器学习工程问题中执行实验循环,并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。
Oct, 2023
提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。
Feb, 2024
通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具,对现有移动代理进行全面和系统性的性能比较,以解决应用程序状态无穷和可行操作序列定义模糊的挑战。
Jun, 2024
通过引入 103 个 API 来扩展传统的 UI 操作,结合真实用户查询和 LLMs 的扩充数据,Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准,其中包括 832 个数据输入和 200 多个任务,特别设计用于评估多应用程序协作场景,并引入了一种名为 CheckPoint 的更准确的评估指标来评估 LLM-based 移动代理在规划和推理步骤中是否达到关键点。
Jul, 2024
为了评估大型语言模型的能力并加快其实际应用,我们引入了 AgentBoard,一个综合性的基准测试评估框架,它不仅提供了对模型能力的深入理解,还促进了其性能的可解释性。
Jan, 2024
通过引入 InjecAgent 基准测试,评估 LLM agents 对 IPI attacks 的脆弱性,结果显示 LLM agents 易受攻击,ReAct-prompted GPT-4 在 24% 的情况下易受攻击,并结合加强的黑客提示进一步提高攻击成功率,对 ReAct-prompted GPT-4 的攻击成功率几乎翻倍。
Mar, 2024
DS-Agent 基于大型语言模型研究数据科学任务自动化,通过利用案例推理框架实现了任务需求理解、机器学习模型构建和训练,并通过低资源部署阶段显著降低了 LLMs 基本能力的要求,从而在性能上取得了最佳排名和显著改进。
Feb, 2024