不同标注数量下的学习：从零到多标签

EMNLPSep, 2021

不同标注数量下的学习：从零到多标签

Learning with Different Amounts of Annotation: From Zero to Many Labels

Shujian Zhang, Chengyue Gong, Eunsol Choi

TL;DR该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法，提出可通过利用不同标注数量的训练样例，设计高效的学习算法，提高自然语言处理的任务表现。

Abstract

Training nlp systems typically assumes access to annotated data that has a single human label per example. Given imperfect labeling from annotators and inherent ambiguity of language, we hypothesize that single l

nlp systems annotated data multiple labels learning algorithm natural language inference

发现论文，激发创造

揭示多注释过程：以注释数量和样本难度对模型性能的影响为例

多次注释数据集的性能分数可能会因数据集扩大，从单个注释变为多个注释而有所不同，我们的研究挑战了传统观念，表明使用多次注释的模型并不总能比使用少次或单次注释的模型具有更好的性能。

Oct, 2023

从单一正样本实现多标签学习

研究一种新的多标签图像分类问题，针对训练数据需要手动标注出所有适用标签的挑战，探索使用缺失标签进行学习的特殊情况，并尝试通过线性分类器和端到端微调深度网络提出新的损失函数来解决这个问题。结果表明，在一些情况下，使用更少的标签进行训练可以接近全部标签训练的性能水平。

Jun, 2021

捕获标签分布：自然语言推理案例研究

研究了自然语言推理任务中固有人类分歧 (注释标签分布) 的估计。通过后处理平滑预测的标签分布以匹配期望的标签熵取得了很好的效果。同时，通过引入有多个参考的少量样例进行训练，相较于传统做法每个训练样本只采集一个参考，我们发现这种多参考的方法可以在固定注释预算下实现更好的精度。最后，提供了对比这两种方法的丰富分析，用于改进标签分布估计。

Feb, 2021

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

自适应自我训练用于小样本神经序列标注

该研究提出了通过自训练和元学习技术解决多个自然语言处理任务中低标注数据带来的挑战的方法，并在六个基准数据集上实验证明了其在标注数据较少的情况下具有良好的效果。

Oct, 2020

多语种模型有效获取注释

本研究通过采用单一模型在多语种数据上进行联合学习的策略，比起传统的在每种语言上单独训练模型和通过高资源语言进行零样本迁移的方法，性能显著提高。同时，主动学习可以进一步提高数据利用率。在 4 种和 5 种语言的分类、序列标注和句法分析任务中，该方法表现出了显著优越性，在有限的预算下构建多语种模型的可行性得到了很大提高。

Apr, 2022

拥抱不确定性：转变 NLI 模型的训练目标

本文研究了在自然语言推理任务中训练模型时，直接使用标注者标签分布的方法而非正确标签的方法，并准备了 AmbiNLI 数据集，经过模型微调可以降低混沌度得分，并可提高模型性能和下游任务的表现。

Jun, 2021

半监督学习中建模多个标注者的专业知识

本文提出了一种概率半监督模型和算法，可以从多个注释者的标记数据中学习，并利用未标记数据，将注释者模型用于估计真实标记和注释者变量专业知识。对各种情况进行了数值比较，并表明了该方法优于不使用未标记数据的多注释者方法及不使用多标记者信息的方法。

Mar, 2012

不浪费任何一个注释：通过软标签改进单标签分类器

本文主要研究了数据注释和训练方法在客观单标签分类任务中的局限性，并提出了使用软标签的方法来改善性能。

Nov, 2023

Annot-Mix: 通过 Mixup 扩展从多个注释者的嘈杂标签中学习

噪声类标签训练影响神经网络的泛化性能，提出了一种基于多注释者分类框架 annot-mix 的 mixup 扩展方法，可以处理每个实例的多个类标签，并考虑类标签的注释者来源，优于现有的八种方法，并在使用人类或模拟注释者提供的十一个数据集上表现出色。

May, 2024