DCA-Bench: 数据集整理代理的基准测试

Jun, 2024

DCA-Bench: 数据集整理代理的基准测试

DCA-Bench: A Benchmark for Dataset Curation Agents

Benhao Huang, Yingzhuo Yu, Jin Huang, Xingjian Zhang, Jiaqi Ma

TL;DR利用大型语言模型代理，提出了一个评估数据集筛选能力的基准测试，该基准测试使用真实世界的数据集问题，并通过自动化评估器与人工评估对齐可靠，以进一步探索和创新应用大型语言模型于现实世界的数据集处理。

Abstract

The quality of datasets plays an increasingly crucial role in the research and development of modern artificial intelligence (AI). Despite the proliferation of open dataset platforms nowadays, data quality issues, such as insufficient documentation, inaccurate annotations, and ethical

dataset curation data quality issues large language models llm agents benchmark

发现论文，激发创造

InfiAgent-DABench: 数据分析任务中的代理评估

介绍了第一个专门设计用于评估 LLM-based agents 在数据分析任务中的基准测试 InfiAgent-DABench，并收集了 311 个数据分析问题和 23 个最新 LLM 的基准测试结果。

Jan, 2024

CMDBench: 粗到精细的复合人工智能系统中多模态数据发现的基准

为了评估复合人工智能系统（CASs）中多模式数据检索器的数据发现性能，我们提出了一个模拟企业数据平台复杂性的基准测试 CMDBench，并通过对各种模态、数据源和任务难度进行实验，发现数据检索器设计对下游任务性能的影响，平均任务准确性下降 46％，从而表明有必要开发优化策略以有效执行 CASs。

Jun, 2024

数据科学代理的基准测试

在数据驱动的决策时代，数据分析的复杂性需要数据科学的高级专业知识和工具，而大型语言模型 (Large Language Models (LLMs)) 作为数据科学代理人，有望成为有益的辅助工具。本文介绍了 DSEval - 一种新颖的评估范式，以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法，我们简化了数据集准备工作，提高了评估涵盖范围，扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍，并提供了重要的见解，以指导未来领域的进展。

Feb, 2024

Wikibench: 基于社区驱动的维基百科 AI 评估数据整理

AI 工具越来越多地在社区环境中部署。然而，用于评估 AI 的数据集通常由社区之外的开发者和注释者创建，这可能对 AI 性能产生误导性结论。本研究调查了如何赋予社区推动 AI 评估数据集的有意设计和策划的能力，我们在维基百科进行了探索。我们引入了 Wikibench，这是一个系统，可以让社区协作策划 AI 评估数据集，并通过讨论解决歧义和观点差异。维基百科的实地研究表明，使用 Wikibench 策划的数据集能够有效捕捉到社区的共识、分歧和不确定性。此外，研究参与者使用 Wikibench 来塑造整个数据策划过程，包括改善标签定义、确定数据包含标准和撰写数据说明。根据我们的研究结果，我们提出了支持社区驱动的数据策划的未来发展方向。

Feb, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

DiscoveryBench：基于大型语言模型的数据驱动发现

快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码，从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题，该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力，并为改进这些能力提供有用的资源。

Jul, 2024

人工智能发展的基准数据集未能满足医疗专业人员的需求

通过深入文献和在线资源的系统性研究，我们编制并发布了一个全面的与临床和生物医学自然语言处理（NLP）广泛领域相关的数据集和基准目录，对 450 个 NLP 数据集进行了手动系统化和注释处理，并与跨医疗应用的相关任务进行了比较，结果显示，当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务，因此需要创建新的基准测试以填补这些差距。

Jan, 2022

AQuA: 标签质量评估的基准测试工具

该论文提出了一个用于评估机器学习中标签错误的基准环境 AQuA，引入了标签错误检测模型的具体设计选择的设计空间，并希望借助该基准实现客观而严格的机器学习工具评估。

Jun, 2023

DACBench: 一种动态算法配置基准库

提出 DACBench，一个基准测试库，旨在收集并标准化来自不同 AI 领域的现有 DAC 基准测试，并为新的基准测试提供一个模板，实现灵活性、可复现性、可扩展性和自动化文档和可视化，以展示 DAC 的潜力、广泛适用性和挑战，并通过比较初始六个基准测试在多个难度维度上的表现来验证其有效性。

May, 2021

OCDB：重新审视因果推断的全面基准和评估框架

基于真实数据，我们提出了一个灵活的评估框架，在评估因果结构和因果效应的差异方面具有关键属性，可以提高大型语言模型的可解释性。我们引入了基于真实数据的开放式因果发现基准（OCDB），以促进公平比较和算法优化。实验结果显示，现有算法在真实数据上存在显著的泛化能力不足，突出了性能改进的潜力以及我们框架在推进因果发现技术方面的重要性。

Jun, 2024