谁说了什么:建模个人标注者提高分类
提出一种用多种专家意见生成标签的新方法,通过学习加权组合来建立预测模型,该方法在模拟和实际数据上表现出优异性能,具有简单,快速和高效的特点,可用于训练多标签回归模型的应用场景。
May, 2023
本研究探讨了在医学影像分析中利用机器学习算法进行异常检测的方法,重点讨论了算法的性能如何取决于标注者的数量和标签的质量。我们提出了一种简单有效的方法,通过聚合不同水平标注者的标注来解决单个标注者主观性标注的问题。通过估计多个标注的隐藏标签并使用重新加权的损失函数来提高检测性能,我们旨在提高异常检测任务中预测模型的效率。本研究在一个真实的医学影像数据集上进行了评估,并超越了不考虑标注者间差异的相关基线。
Mar, 2023
本文提出了一种概率半监督模型和算法,可以从多个注释者的标记数据中学习,并利用未标记数据,将注释者模型用于估计真实标记和注释者变量专业知识。对各种情况进行了数值比较,并表明了该方法优于不使用未标记数据的多注释者方法及不使用多标记者信息的方法。
Mar, 2012
本文提出了基于蒸馏的方法,并采用信任加权方案,使用伪标签的无标签辅助数据促进合作学习,以达成对辅助数据的标签共识。我们证明了该方案相对于本地训练能显著提高模型性能,同时也可以识别和缓解对于众多模型的负面影响。在个体数据训练以及模型架构存在异质性的情况下,该方法表现得尤为有效。
May, 2023
本论文探讨选择性标签下算法辅助决策学习的问题,介绍为什么标准方法无法有效处理选择性标签的普遍选择偏误问题,提出了一种数据增强方法,既可以利用专家一致性减轻选择性标签导致的部分盲目性,也可以经验验证学习是否会导致易受系统性歧视的不可靠模型。
Jul, 2018
本文研究表明,使用大规模数据集训练的网络之所以具有良好的泛化能力,并非仅仅因为有众多的训练示例,还因为类别的多样性鼓励了富有表现力特征的学习。当数据匮乏时,使用额外的标签进行学习是否仍然具有优势?本文针对乳腺 X 光图像中的肿瘤分割任务展开研究。我们发现,在低数据设置下,通过将专家注释与非专家注释者提供的看似无关乎的标签相结合,将任务变为多分类问题,可以提高性能。我们揭示了这些增益在专家数据较少时增加的情况,并通过进一步的研究揭示了几个有趣的属性。我们在 CSAW-S 上证明了我们的发现,并在两个公共数据集上进行了确认。
Jul, 2020
本文提出了一种简单的方法,通过从非参数核回归中的一些想法得出训练实例的加权总和来预测标签,并在符合性方法的框架内提出了一种新的非一致性测量法,实验验证了理论预期,证明了在不影响准确性或校准的情况下,提高了透明度、可控的错误率和抵抗域外数据的鲁棒性。
Nov, 2018
本研究提出了一种新的问题形式,解决了二进制多实例学习问题,并创建了一个基于概率的模型,通过有效的 MCMC 算法进行训练,利用组统计信息来学习实例级分类器,以推断个体的未知二进制标签。该模型在一般对象识别中得到了应用。
Jul, 2012
本文探讨了通过众包方式进行 NLP 数据集标注时,标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差,并提高了数据集透明度和实用性的建议。
Oct, 2021