如何改进自然语言理解基准测试？

ACLApr, 2021

如何改进自然语言理解基准测试？

What Will it Take to Fix Benchmarking in Natural Language Understanding?

Samuel R. Bowman, George E. Dahl

TL;DR该论文提出了评估自然语言理解任务的四个标准，并指出目前大多数现有标准都无法满足这些标准，而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统，需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。

Abstract

Evaluation for many natural language understanding (NLU) tasks is broken: Unreliable and biased systems score so highly on standard benchmarks that there is little room for researchers who develop better systems to demonstrate their improvements. The recent trend to abandon IID benchma

natural language understanding nlu benchmarks reliability biases social bias

发现论文，激发创造

对抗性自然语言推理：自然语言理解新基准

介绍了一个通过迭代对抗人与模型的程序收集的大规模 NLI 基准数据集，并展示了训练模型在这个新数据集上将导致在各种流行的 NLI 基准测试中的最新性能，同时还带来了更困难的挑战。数据收集方法可以在永不停止的学习场景中应用，成为 NLU 的移动目标，而不是一个很快就会饱和的静态基准测试集。

Oct, 2019

自然语言模型对抗性评估

本文提出了一种用于评估自然语言处理模型的新的抽象框架，通过明确研究人员之间的某些对抗角色，这有助于定义不同角色在评估中的贡献，并鼓励更早的错误分析，这个框架可以用多种方式实例化，并模拟一些熟悉的内部和外部评估以及一些新的评估。

Jul, 2012

自然语言处理评估中的难题：从需要对每个基准进行 LLM 数据污染度测量谈起

该论文讨论了自然语言处理任务的评估存在的问题，并提出了数据污染以及针对数据污染的自动检测和提示措施。

Oct, 2023

超越排行榜：揭示自然语言推理数据和模型弱点方法综述

本文是对近年来有关自然语言推理数据集的研究及其相关算法模型的综述，对模型和数据集中存在的问题进行分类整理，并提出一些可能的研究方向，为未来的研究提供指导建议。

May, 2020

MENLI: 自然语言推理的鲁棒性评估度量

本文提出基于自然语言推断方法的评价指标，相比以往 BERT-based 评价指标更具鲁棒性，并结合其他评价指标可以同时提高鲁棒性和质量指标。

Aug, 2022

当前自然语言处理研究中的方法论：以 Benchmark 为目标

本文围绕语言任务与数据集的挑战性、基准模型及其改进、研究进展等方面，探讨了该领域中的研究模式与进展。

Jul, 2020

面向人本解释性文本分类基准的探索

本文探讨了已有的文本分类数据集不能准确反映真实应用场景的问题，并提出了两点解决方案：一是在文本分类数据集中增加可解释性的评价指标，二是通过人类的应用场景与判断加强数据集的教学力度。

Nov, 2022

FewNLU: 少量样本自然语言理解方法的最新基准测试

该研究提出了一种新的评估框架，改进了之前评估程序的测试性能、开发测试相关性和稳定性三个方面，重新评估了几种最先进的少样本自然语言理解方法，发现不同的方法在不同的任务上表现得不尽相同，而且不同方法之间的提高往往是互补的，结合多种方法后最佳组合模型与强有力的完全监督基线的性能接近。

Sep, 2021

构建更稳健的 NLP 系统评估：在基准测试中处理缺失得分

本研究提出了一种针对 NLP 研究中系统得分缺失的基准评估方法，使用 Borda 计数方法聚合使用兼容的局部排名方法填补的缺失数据，并引入一个包含超过 1.31 亿个得分的扩展基准评估，验证了该方法在处理实际情况中缺失系统评估的有效性。

May, 2023

自然语言处理系统的可靠性测试

探讨 NLP 系统的公正性和健壮性，需要进行可靠性测试以制定和实施行业标准。

May, 2021