数据编程: 快速创建大规模训练集
Adversarial Data Programming (ADP) presents an adversarial methodology to generate data and a curated aggregated label by using distant supervision signals in the form of weak labeling functions, which outperformed many state-of-the-art models on image datasets like MNIST, Fashion MNIST, CIFAR 10, and SVHN. The proposed ADP framework could also be extended for multi-task learning and transfer learning.
Mar, 2018
本文提出了一种新的自动训练数据标注范例——亲和编码法,并设计了一种可重复利用的适用于图像数据的亲和函数集合;在五个不同领域的图像标注任务上与现有数据编程系统 Snuba 和新型的少样本学习技术进行了比较,结果显示,该系统精度在 71% 至 98% 之间,端到端表现优于现有系统,在不需要人工标注的情况下,比新型少样本学习技术和 Snuba 系统性能更优,非常接近完全受监督模型的上限。
Mar, 2019
该论文提出了一种名为CAGE的方法,它是一种基于数据编程范 Paradigm 的算法。它通过支持输出与标签不确定相关的连续分数的函数,以增强和推广现有的 data programming 范 Paradigm,使程序更加自然且具有更好的召回率,并可以通过整合人类专家的质量指南来引导训练过程,从而使算法更加可靠。
Nov, 2019
本文提出了一种半监督的数据编程范式,使用规则/标注函数和半监督损失函数基于特征空间学习联合模型,此外,还研究了在联合半监督数据编程目标之上进行子集选择的模型,并在七个公开数据集上表现显著优于其他状态下的模型。
Aug, 2020
本研究提出了一种基于标签数据和未标签数据的半监督学习技术,利用标签数据产生可解释的标签函数(LFs),再通过数据编程获得大量嘈杂的标注数据,有效避免了需要大量标注数据的问题,并利用一个鲁棒的双层优化算法进行 LF 重加权,并在多个文本分类数据集上展示了效果显著的优势。
Sep, 2021
本文提出一种超级标签模型,通过程序化弱监督方法中的标注函数抽象出来产生训练标签,可以在单个前向传递中推断出每个数据集的基本真实标签。使用了图神经网络,使模型预测对标签函数排列的顺序保持不变,从而在14个真实世界中的数据集上表现得比现有的最佳方法更具效率和精度。
Jul, 2022
我们引入了一个新的任务,标签指令生成,旨在解决缺少公开可用的标注说明的问题,我们介绍了一个无需模型训练的框架,并使用一个新创建的快速检索系统,利用大型预训练视觉和语言模型,生成数据集类别的多个不同的视觉和文本表示,我们优化后的标注指令集在5个折叠中比NuImages高出7.06 mAP,比COCO高出12.9 mAP。
Jun, 2023
在医学领域中,大型深度神经网络(DNNs)需要高质量的标记数据,但通常数据稀缺。本文提出使用距离函数来解决高维数据下的标记问题,该方法通过查询专家对数据集的代表性样本进行标记以生成弱标签,并在医学时间序列和医学图像案例研究中取得了显著的精度和F1分数提升。
Jul, 2024