ACLApr, 2021

Dynabench: NLP 基准评估的重新思考

TL;DRDynabench 是一个开源平台,支持动态数据集创建和模型基准测试,可以在一个 web 浏览器中运行。通过人和模型操作,使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为,Dynabench 解决了当前模型在基准任务上表现优异,但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务,阐述了这些概念,突出了 Dynabench 平台的优点,并解决了动态基准测定作为新标准引起的潜在反对意见。