Mar, 2024

VariErr NLI:将注释错误与人类标签变异分离

TL;DR人类标签变异与注释错误是 NLP 基准测试中普遍存在的问题,现有研究通常将其孤立研究。本论文提出了一种系统的方法和一个新的数据集 VariErr,着重研究英语 NLI 任务中的错误与变异。通过评估各种自动错误检测方法和 GPT 模型在发现错误和人类标签变异方面的效果,我们发现目前的自动错误检测方法明显不如 GPT 模型和人类。虽然 GPT-4 是最好的系统,但仍然没有达到人类的表现水平。我们的方法不仅适用于 NLI,也为将来研究错误与合理变异提供了丰富的研究基础,从而可以获得更好、更可靠的 NLP 系统。