VariErr NLI：将注释错误与人类标签变异分离

Mar, 2024

VariErr NLI：将注释错误与人类标签变异分离

VariErr NLI: Separating Annotation Error from Human Label Variation

Leon Weber-Genzel, Siyao Peng, Marie-Catherine de Marneffe, Barbara Plank

TL;DR人类标签变异与注释错误是 NLP 基准测试中普遍存在的问题，现有研究通常将其孤立研究。本论文提出了一种系统的方法和一个新的数据集 VariErr，着重研究英语 NLI 任务中的错误与变异。通过评估各种自动错误检测方法和 GPT 模型在发现错误和人类标签变异方面的效果，我们发现目前的自动错误检测方法明显不如 GPT 模型和人类。虽然 GPT-4 是最好的系统，但仍然没有达到人类的表现水平。我们的方法不仅适用于 NLI，也为将来研究错误与合理变异提供了丰富的研究基础，从而可以获得更好、更可靠的 NLP 系统。

Abstract

human label variation arises when annotators assign different labels to the same item for valid reasons, while annotation errors occur when labels are assigned for invalid reasons. These two issues are prevalent

human label variation annotation errors nlp benchmarks error detection nli task

发现论文，激发创造

通过解释理解和预测自然语言推理中的人类标签变化

该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示，发现目前 GPT-3 在预测标签分布方面仍有改进的空间

Apr, 2023

自然有效的自然语言推理标签变异解释

人类标签差异存在于许多自然语言处理任务中，包括自然语言推理。在研究中，我们建立了 LiveNLI 数据集，通过 1415 个生态有效解释（标注者解释他们选择的 NLI 标签）来获取直接证据，研究了标签差异的产生。结果显示，解释对于理解标签的不同解释至关重要，并且标注者有时会基于不同的原因选择相同的标签，这表明解释在一般中导航标签解释方面起着关键作用。我们进行了少样本大语言模型生成解释的尝试，但结果不一致：它有时会产生有效和有信息量的解释，但也会生成不支持标签的不合理的解释，提出了改进的方向。

Oct, 2023

实体的不同偏好：研究命名实体标注中的人工标签变化

本研究通过对三种语言的专家注释的命名实体数据集进行调查，展示了文本歧义和人工指南变更是高质量修订的差异性注释的主要因素，并对难以理解的实体的学生注释进行了调查，证明了从分布视角理解命名实体歧义的多向注释的可行性和必要性。

Feb, 2024

人类标注变异的 ' 问题 '：关于数据、建模和评估中的基础真相

本文探讨人类标注变异的问题在机器学习中的影响及解决方法，并提供一个包含无聚合标签的公开数据集库以便以后进行研究。

Nov, 2022

利用人工智能和大型语言模型评估实验中学生的错误：与人类评分员的比较研究

使用大型语言模型（LLMs）探索错误检测在探究式学习中的应用，并解决学生实验协议等复杂、不完整、甚至矛盾和多样化的数据中的逻辑错误识别的困难。

Aug, 2023

搜索相关性数据标注任务的通用化错误建模

本研究提出了一个预测性错误模型，用于检测三个规模广泛的机器学习应用（音乐流媒体、视频流媒体和移动应用）的搜索相关性标注任务中的潜在错误，并评估其提高数据标注过程的质量和效率的潜力。研究结果表明，自动错误检测模型可以在数据注释过程的效率和质量方面带来显着改善，并为人机协同机器学习领域提供重要见解。

Oct, 2023

注释错误检测：分析过去和现在，创造更连贯的未来

本文重新实现并评估了 18 种检测可能存在的注释错误的方法，并在 9 个英文数据集上进行了评估，同时提供了评估协议和实现的开源软件包，以促进未来的研究和再现性。

Jun, 2022

正确我吧：从错误纠正和标记中学习

该论文通过研究 TED 演讲的翻译数据，提出使用错误标记的标注模式可以更加高效地训练神经机器翻译模型，同时保证较高的信号强度和良好的标注代价。

Apr, 2020

捕获标签分布：自然语言推理案例研究

研究了自然语言推理任务中固有人类分歧 (注释标签分布) 的估计。通过后处理平滑预测的标签分布以匹配期望的标签熵取得了很好的效果。同时，通过引入有多个参考的少量样例进行训练，相较于传统做法每个训练样本只采集一个参考，我们发现这种多参考的方法可以在固定注释预算下实现更好的精度。最后，提供了对比这两种方法的丰富分析，用于改进标签分布估计。

Feb, 2021

不同标注数量下的学习：从零到多标签

该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法，提出可通过利用不同标注数量的训练样例，设计高效的学习算法，提高自然语言处理的任务表现。

Sep, 2021