Dynabench: NLP 基准评估的重新思考

ACLApr, 2021

Dynabench: Rethinking Benchmarking in NLP

Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger...

TL;DRDynabench 是一个开源平台，支持动态数据集创建和模型基准测试，可以在一个 web 浏览器中运行。通过人和模型操作，使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为，Dynabench 解决了当前模型在基准任务上表现优异，但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务，阐述了这些概念，突出了 Dynabench 平台的优点，并解决了动态基准测定作为新标准引起的潜在反对意见。

Abstract

We introduce dynabench, an open-source platform for dynamic dataset creation and model benchmarking. →

dynabench dataset creation model benchmarking nlp tasks dynamic benchmarking

发现论文，激发创造

Dynatask：创建动态 AI 基准任务的框架

Dynatask 是一个开源系统，它旨在极大地降低主机和评估最先进的自然语言处理（NLP）模型所需的技术知识和工作量，以及用众包进行模型数据收集。用户只需要编写一个简短的任务配置文件，系统会自动生成相关的 Web 界面和模型托管基础设施，并与具有人类和模型数据收集和评估的 Dynabench 平台集成。

Apr, 2022

Dynaboard: 一款全面的下一代基准评估即服务平台

Dynaboard 是一个评估即服务框架，集成于 Dynabench 平台，评估 NLP 模型的质量和性能，并使用基于用户定制的 Dynascore 统计综合评估指标，帮助用户更好地评估模型质量。

May, 2021

DynaBench: 低分辨率数据学习动态系统的基准数据集

本文介绍了一个新的模拟基准数据集 DynaBench, 用于直接从稀疏散乱的数据中学习动力系统。该数据集着重于通过低分辨率、非结构化的测量预测动力学系统的演变，并评估了几个机器学习模型（包括传统的图神经网络和点云处理模型）。

Jun, 2023

NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题

大型语言模型在生产性活动的代码生成方面表现出强大的能力。然而，当前的代码合成基准主要面向算法和数据科学的入门任务，在真实世界的编码中对具有挑战性的要求不够满足。为了填补这一差距，我们提出了 NaturalCodeBench（NCB）作为一个具有挑战性的代码基准，旨在模拟真实编码任务的复杂性和多样性。NCB 由来自在线编码服务的自然用户查询中精心挑选的 402 个高质量问题组成，涵盖了 6 个不同领域。我们还引入了半自动化流程来提高测试用例构建的效率，相比手动解决方案，效率提高了 4 倍以上。我们对 39 个大型语言模型进行了系统实验，发现在 NCB 上，具有接近 HumanEval 评分的模型之间的性能差距仍然可能很大，表明对实际代码合成场景的关注不足或在 HumanEval 上过度优化。另一方面，即使是表现最佳的 GPT-4 在 NCB 上仍然远未令人满意。评估工具和开发集可在此 URL 获取。

May, 2024

动态基准理论

本研究理论分析了动态基准测试的两种实现方式，第一种模型中，模型性能最初会有所提高，但只会在三轮后停滞，而第二种模型则保证了比第一种模型更多的进展，但复杂度更高，并通过模拟动态基准测试的结果来验证了理论分析，为动态基准测试提供了理论和实践上的支持。

Oct, 2022

动态异构学术图的公共基准测试

本研究针对机器学习模型在动态图中的学习和推理遇到的挑战，针对传统静态同构图数据集的局限性，提出了一种利用多元素科学出版涵盖的动态异构学术图数据集，测试模型预测任务的效能，并提出了一种系统方法来改善现有的图预测模型评估程序。

Apr, 2022

低资源学习的挑战性基准测试

通过提出一个更具挑战性的标准 hardBench，通过 11 个数据集，包括 3 个计算机视觉（CV）数据集和 8 个自然语言处理（NLP）数据集，研究表明目前模型的弱点，尤其是在低资源学习困难的情况下，证明了现有模型与人类性能水平之间仍然存在较大的鲁棒性差距。

Mar, 2023

人工智能发展的基准数据集未能满足医疗专业人员的需求

通过深入文献和在线资源的系统性研究，我们编制并发布了一个全面的与临床和生物医学自然语言处理（NLP）广泛领域相关的数据集和基准目录，对 450 个 NLP 数据集进行了手动系统化和注释处理，并与跨医疗应用的相关任务进行了比较，结果显示，当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务，因此需要创建新的基准测试以填补这些差距。

Jan, 2022

对抗性自然语言推理：自然语言理解新基准

介绍了一个通过迭代对抗人与模型的程序收集的大规模 NLI 基准数据集，并展示了训练模型在这个新数据集上将导致在各种流行的 NLI 基准测试中的最新性能，同时还带来了更困难的挑战。数据收集方法可以在永不停止的学习场景中应用，成为 NLU 的移动目标，而不是一个很快就会饱和的静态基准测试集。

Oct, 2019

DIALECTBENCH: 方言，变体和相关语言的自然语言处理基准

使用 DIALECTBENCH 评估自然语言处理系统在标准和非标准方言上的性能差异，为语言技术的发展提供了综合视角。

Mar, 2024