学习超标签模型以进行编程式弱监督

Jul, 2022

学习超标签模型以进行编程式弱监督

Learned Label Aggregation for Weak Supervision

Renzhi Wu, Shen-En Chen, Xu Chu

TL;DR本文提出一种超级标签模型，通过程序化弱监督方法中的标注函数抽象出来产生训练标签，可以在单个前向传递中推断出每个数据集的基本真实标签。使用了图神经网络，使模型预测对标签函数排列的顺序保持不变，从而在14个真实世界中的数据集上表现得比现有的最佳方法更具效率和精度。

Abstract

The lack of labeled training data is the bottleneck of machine learning in many applications. To resolve the bottleneck, one promising direction is the data programming approach that aggregates different sources of weak supervision signals to generate labeled data easily. Data programming encodes each weak supervision source with a labeling function (LF), a

发现论文，激发创造

噪声标签学习的元标签校正

本文提出了一种基于元学习的标签纠正框架（MLC），旨在解决数据训练集中标签嘈杂或不确定性等问题，通过调整权重甚至直接纠正嘈杂标签来优化训练。在文本分类等任务中验证了该方法的有效性。

Nov, 2019

弱监督学习的约束标注

本文提出了一种基于约束空间的弱监督学习方法，将不同的弱监督信号结合起来进行训练，在文本分类和图像分类任务中优于其他方法。

Sep, 2020

学习强健的聚合标注函数进行半监督数据编程

本研究提出了一种基于标签数据和未标签数据的半监督学习技术，利用标签数据产生可解释的标签函数（LFs），再通过数据编程获得大量嘈杂的标注数据，有效避免了需要大量标注数据的问题，并利用一个鲁棒的双层优化算法进行 LF 重加权，并在多个文本分类数据集上展示了效果显著的优势。

Sep, 2021

程序化弱监督综述

本文综述了最近在程序化弱监督（PWS）方面取得的重要进展，特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法，还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与PWS结合使用，最后鉴定了一些在该领域中仍未被探讨的关键挑战，希望能够激发未来的研究方向。

Feb, 2022

WeaNF: 基于归一化流的弱监督

本文探讨生成式建模弱监督中的新方向，即通过正则化流为每个弱标记源或标记函数估计密度，同时捕捉标记函数重叠和相关性现象，并在各种弱监督数据集上进行分析比较。结果表明，弱监督正则化流相对于标准弱监督有更好的效果。

Apr, 2022

是否聚合？在带有不同噪声标签下的学习

本文分析了在标签噪声率高或标注者/注释数量不足时，标签分离优于标签聚合的情况，并在众包产生的有噪声标签下通过理论分析和实证结果验证了这个结论。

Jun, 2022

弱监督下的标签传播

本文中，我们介绍了一种更优的传统标签传播算法（LPA）的分析方法，它可以利用有用的先验信息，具体而言是无标签数据上的概率假设标签。我们提供了一个误差界限，它利用了底层图形的局部几何特性和先前信息的质量。我们还提出了一个框架来整合多个来源的嘈杂信息。我们在多个基准弱监督分类任务上演示了我们的方法的能力，并展示了对现有半监督和弱监督方法的改进。

Oct, 2022

标签损失：通过直接损失构建进行弱监督学习

本文提出一种基于 (heuristics) 启发式规则构造损失函数 (loss functions) 的弱监督学习 (weak supervision) 方法，命名为 'Losses over Labels (LoL)'，可以更多地利用启发式规则中专家知识和判断依据进行训练，有效提高文本和图像分类任务中的性能。

Dec, 2022

AutoWS: 文本分类自动化弱监督框架

提出了AutoWS框架用于增加弱监督过程的效率，减少对领域专家的依赖性，使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签，然后通过一个下游歧别分类器将其聚合成概率标签。

Feb, 2023

具有漂移数据的弱监督自适应方法

提出了一种自适应方法，在非稳态环境下提供正式质量保证的弱监督学习，通过使用提供每个数据点的正确分类的独立嘈杂信号的弱监督学习源来推断一系列数据的未知标签，并针对准确性可能随时间漂移的非稳态情况进行了重点研究，该算法不需要先验假设并且基于输入进行自适应调整。该算法保证了在过去观察窗口内，最小化估计误差方差和漂移误差的平衡下，弱监督源的当前准确性。实验表明，与固定窗口大小策略不同，该方法可动态选择窗口大小，以保持良好性能。

Jun, 2023