学习超标签模型以进行编程式弱监督
本文提出了一种基于元学习的标签纠正框架(MLC),旨在解决数据训练集中标签嘈杂或不确定性等问题,通过调整权重甚至直接纠正嘈杂标签来优化训练。在文本分类等任务中验证了该方法的有效性。
Nov, 2019
本研究提出了一种基于标签数据和未标签数据的半监督学习技术,利用标签数据产生可解释的标签函数(LFs),再通过数据编程获得大量嘈杂的标注数据,有效避免了需要大量标注数据的问题,并利用一个鲁棒的双层优化算法进行 LF 重加权,并在多个文本分类数据集上展示了效果显著的优势。
Sep, 2021
本文综述了最近在程序化弱监督(PWS)方面取得的重要进展,特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法,还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与PWS结合使用,最后鉴定了一些在该领域中仍未被探讨的关键挑战,希望能够激发未来的研究方向。
Feb, 2022
本文探讨生成式建模弱监督中的新方向,即通过正则化流为每个弱标记源或标记函数估计密度,同时捕捉标记函数重叠和相关性现象,并在各种弱监督数据集上进行分析比较。结果表明,弱监督正则化流相对于标准弱监督有更好的效果。
Apr, 2022
本文中,我们介绍了一种更优的传统标签传播算法(LPA)的分析方法,它可以利用有用的先验信息,具体而言是无标签数据上的概率假设标签。我们提供了一个误差界限,它利用了底层图形的局部几何特性和先前信息的质量。我们还提出了一个框架来整合多个来源的嘈杂信息。我们在多个基准弱监督分类任务上演示了我们的方法的能力,并展示了对现有半监督和弱监督方法的改进。
Oct, 2022
本文提出一种基于 (heuristics) 启发式规则构造损失函数 (loss functions) 的弱监督学习 (weak supervision) 方法,命名为 'Losses over Labels (LoL)',可以更多地利用启发式规则中专家知识和判断依据进行训练,有效提高文本和图像分类任务中的性能。
Dec, 2022
提出了AutoWS框架用于增加弱监督过程的效率,减少对领域专家的依赖性,使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签,然后通过一个下游歧别分类器将其聚合成概率标签。
Feb, 2023
提出了一种自适应方法,在非稳态环境下提供正式质量保证的弱监督学习,通过使用提供每个数据点的正确分类的独立嘈杂信号的弱监督学习源来推断一系列数据的未知标签,并针对准确性可能随时间漂移的非稳态情况进行了重点研究,该算法不需要先验假设并且基于输入进行自适应调整。该算法保证了在过去观察窗口内,最小化估计误差方差和漂移误差的平衡下,弱监督源的当前准确性。实验表明,与固定窗口大小策略不同,该方法可动态选择窗口大小,以保持良好性能。
Jun, 2023