WeShap: 使用Shapley值对弱监督源进行评估

Jun, 2024

WeShap: 使用Shapley值对弱监督源进行评估

WeShap: Weak Supervision Source Evaluation with Shapley Values

Naiqing Guan, Nick Koudas

TL;DR使用程序化弱监督方法自动标记数据并应用WeShap值作为评估度量，以提高数据质量并加速训练机器学习模型。

Abstract

efficient data annotation stands as a significant bottleneck in training contemporary machine learning models. The programmatic weak supervision<

发现论文，激发创造

使用多任务弱监督训练复杂模型

文章提出了一种基于多任务弱监督的矩阵补全方法, 通过建立弱监督任务之间的相关性解决弱监督准确性低的问题, 从而提高模型训练的效果。实验结果表明, 与传统的有监督方法相比, 该方法能平均提高 20.2% 的准确率。

Oct, 2018

端到端弱监督

通过聚合多个弱监督数据源，本研究提出一种直接使用神经网络重参数化概率先验标签，从而直接学习下游模型的端到端方法，取得了端模型性能和弱监督数据依赖性方面的改进。

Jul, 2021

WRENCH：弱监督全面基准评估

本文提出了一种名为 WRENCH 的基准平台，用于对弱监督方法的评估和比较，它包括用于分类和序列标记的 22 个真实世界数据集，一系列真实、合成和过程生成的弱监督源，并提供流行的弱监督方法的实施。

Sep, 2021

通用弱监督

该研究提出了一种通用的技术，以实现对任何标签类型的弱监督，同时仍提供实用灵活性、计算效率和理论保证，并应用于以往没有使用弱监督框架解决的重要问题，包括排序学习、回归和超似曲空间中的学习。

Dec, 2021

程序化弱监督综述

本文综述了最近在程序化弱监督（PWS）方面取得的重要进展，特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法，还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与PWS结合使用，最后鉴定了一些在该领域中仍未被探讨的关键挑战，希望能够激发未来的研究方向。

Feb, 2022

弱监督训练子集选择

本篇论文研究了弱监督机器学习方法，提出了利用预训练数据表示结合剪枝统计学方法选择高质量弱标签数据的子集，优化了弱监督模型的表现，提升了19%的准确率。

Jun, 2022

AutoWS-Bench-101：基于100个标签的自动化弱监督基准测试

AutoWS-Bench-101框架用于评估自动WS技术在具有复杂或高维特征领域的各种应用程序中的应用效果，该研究的中心问题是比较或协作现代零样本或少样本学习器与自动WS技术的表现，发现在许多情况下，自动WS方法需要结合现代基础模型的信号才能胜过简单的少次学习基线。

Aug, 2022

标签损失：通过直接损失构建进行弱监督学习

本文提出一种基于 (heuristics) 启发式规则构造损失函数 (loss functions) 的弱监督学习 (weak supervision) 方法，命名为 'Losses over Labels (LoL)'，可以更多地利用启发式规则中专家知识和判断依据进行训练，有效提高文本和图像分类任务中的性能。

Dec, 2022

AutoWS: 文本分类自动化弱监督框架

提出了AutoWS框架用于增加弱监督过程的效率，减少对领域专家的依赖性，使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签，然后通过一个下游歧别分类器将其聚合成概率标签。

Feb, 2023

验证程序化弱监督的Fréchet界限估算

我们开发了估算（可能是高维的）分布类的Frechet界的方法，其中一些变量是连续值。我们在边际约束的不确定性下建立了计算界限的统计正确性，并通过评估训练有程序化弱监督的机器学习模型（PWS）的性能来展示我们算法的有用性。

Dec, 2023