提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
采用耦合混淆校正的方法对众包注释进行学习,通过双层优化,使模型能够更好地校正系统学习到的混淆矩阵,同时根据注释者群体的相似性进行聚类,从而更好地捕捉注释者的专业知识,特别是对于很少提供标签的注释者。此外,使用 Beta 分布来生成众包注释,以使合成注释与真实世界的注释更一致。大量实验表明,该方法明显优于现有的方法。
Dec, 2023
本文提出了一种基于 EM 算法和众包技术的神经网络训练模型,能够直接从多个标注者的嘈杂标签数据中进行有监督学习,并能够捕捉不同标注者的可靠性和偏见,最终在多个领域获得了新的最优结果。
Sep, 2017
本文研究了如何使用数据增强处理众包数据中的稀疏性问题,特别地,我们提出了使用生成对抗网络来直接学习分类器,以解决存在于众包数据中的标注不足问题。在三个现实世界数据集上进行的广泛实验和与当前最先进的众包学习方法的比较证明了我们的数据增强框架的有效性,展示了我们算法在低成本众包中的潜力。
Jul, 2021
使用 Learning from Crowds 框架中的 Label Selection Layer 方法,通过选择性网络确定是否使用工人的标签进行训练,提供了一种有效的解决 Crowd annotations 中的标签噪声问题的方法。实验证明该方法在几乎所有的监督学习问题中都能获得与或优于当前最先进的方法相当的性能。
Aug, 2023
本文提出了一种基于领域适应的、适用于众包的注释者感知特征学习模型,以减小众包注释的干扰,实现有效的监督式学习,将其应用于命名实体识别任务中,通过实验验证其在无或少量专家注释的情况下也可以实现极佳的效果,并取得了新的最高性能。
May, 2021
该研究提出了一种名为 LA-SCA 的框架,利用序列注释中的专家间的互相不一致性来探索不确定性和歧义,从而有效地保留混淆标签信息。通过建立层次贝叶斯模型来从人群中推断出真实数据并将相对可靠的标注者分组,计算可靠标注者之间的互相不一致性来获取标签混淆信息,并在成本敏感的序列标注中加以应用。实验结果表明,该框架在从人群中推断真实数据、预测未知序列和揭示具有相似可靠性的标注者的标注模式方面均表现出竞争力。
Jan, 2023
本文提出了一种基于贝叶斯图形模型的技术,用于有效地处理高度冗余注释数据,相比于多数真实推断模型,我们的方法得出了更优质的结果。
Feb, 2019
本文提出了一种通过在注释过程中专门清理高概率错误样本的方法,以优化注释过程,并在三种模型变化和四个自然语言处理任务上进行的实验证明,该方法在分配相同的有限注释预算时优于聚合注释和高级去噪方法。
Oct, 2021
该研究提出了一种使用深度神经网络建模实例和注释者依赖的标签噪声转移矩阵的方法,通过知识转移和校准来缓解挑战,确认了其在合成和真实世界的众包数据上的卓越性能。
Jun, 2023