DCA-Bench: 数据集整理代理的基准测试
介绍了第一个专门设计用于评估 LLM-based agents 在数据分析任务中的基准测试 InfiAgent-DABench,并收集了 311 个数据分析问题和 23 个最新 LLM 的基准测试结果。
Jan, 2024
为了评估复合人工智能系统(CASs)中多模式数据检索器的数据发现性能,我们提出了一个模拟企业数据平台复杂性的基准测试 CMDBench,并通过对各种模态、数据源和任务难度进行实验,发现数据检索器设计对下游任务性能的影响,平均任务准确性下降 46%,从而表明有必要开发优化策略以有效执行 CASs。
Jun, 2024
在数据驱动的决策时代,数据分析的复杂性需要数据科学的高级专业知识和工具,而大型语言模型 (Large Language Models (LLMs)) 作为数据科学代理人,有望成为有益的辅助工具。本文介绍了 DSEval - 一种新颖的评估范式,以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法,我们简化了数据集准备工作,提高了评估涵盖范围,扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍,并提供了重要的见解,以指导未来领域的进展。
Feb, 2024
AI 工具越来越多地在社区环境中部署。然而,用于评估 AI 的数据集通常由社区之外的开发者和注释者创建,这可能对 AI 性能产生误导性结论。本研究调查了如何赋予社区推动 AI 评估数据集的有意设计和策划的能力,我们在维基百科进行了探索。我们引入了 Wikibench,这是一个系统,可以让社区协作策划 AI 评估数据集,并通过讨论解决歧义和观点差异。维基百科的实地研究表明,使用 Wikibench 策划的数据集能够有效捕捉到社区的共识、分歧和不确定性。此外,研究参与者使用 Wikibench 来塑造整个数据策划过程,包括改善标签定义、确定数据包含标准和撰写数据说明。根据我们的研究结果,我们提出了支持社区驱动的数据策划的未来发展方向。
Feb, 2024
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码,从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题,该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力,并为改进这些能力提供有用的资源。
Jul, 2024
通过深入文献和在线资源的系统性研究,我们编制并发布了一个全面的与临床和生物医学自然语言处理(NLP)广泛领域相关的数据集和基准目录,对 450 个 NLP 数据集进行了手动系统化和注释处理,并与跨医疗应用的相关任务进行了比较,结果显示,当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务,因此需要创建新的基准测试以填补这些差距。
Jan, 2022
该论文提出了一个用于评估机器学习中标签错误的基准环境 AQuA,引入了标签错误检测模型的具体设计选择的设计空间,并希望借助该基准实现客观而严格的机器学习工具评估。
Jun, 2023
提出 DACBench,一个基准测试库,旨在收集并标准化来自不同 AI 领域的现有 DAC 基准测试,并为新的基准测试提供一个模板,实现灵活性、可复现性、可扩展性和自动化文档和可视化,以展示 DAC 的潜力、广泛适用性和挑战,并通过比较初始六个基准测试在多个难度维度上的表现来验证其有效性。
May, 2021
基于真实数据,我们提出了一个灵活的评估框架,在评估因果结构和因果效应的差异方面具有关键属性,可以提高大型语言模型的可解释性。我们引入了基于真实数据的开放式因果发现基准(OCDB),以促进公平比较和算法优化。实验结果显示,现有算法在真实数据上存在显著的泛化能力不足,突出了性能改进的潜力以及我们框架在推进因果发现技术方面的重要性。
Jun, 2024