迭代数据编程扩展文本分类语料库

AAAIFeb, 2020

迭代数据编程扩展文本分类语料库

Iterative Data Programming for Expanding Text Classification Corpora

Neil Mallinar, Abhishek Shah, Tin Kam Ho, Rajendra Ugrani, Ayush Gupta

TL;DR该研究采用数据编程方法，使用基于邻域的弱模型来扩充文本数据集，并通过迭代的过程从大量未标记的数据中鉴别出稀疏分布的例子，并以人为中心确认这些标记数据的过程中，不断改进新的弱模型。研究结果表明，该方法可以显著提高文本分类任务的准确性。

Abstract

Real-world text classification tasks often require many labeled training examples that are expensive to obtain. Recent advancements in machine teaching, specifically the →

text classification machine teaching data programming weak models iterative procedure

发现论文，激发创造

数据编程：快速创建大规模训练集

为解决有限数据训练集的问题，本研究提出一种名为 Data Programming 的范式，通过弱监督策略和领域启发式标注函数生成训练集，以生成模型表示训练集的标注过程并降噪，探讨数据编程在监督学习中的应用及在 TAC-KBP 数据集上的检测等实验与研究。

May, 2016

子集选择的半监督数据编程

本文提出了一种半监督的数据编程范式，使用规则 / 标注函数和半监督损失函数基于特征空间学习联合模型，此外，还研究了在联合半监督数据编程目标之上进行子集选择的模型，并在七个公开数据集上表现显著优于其他状态下的模型。

Aug, 2020

跨模态数据编程实现快速医学机器学习

该研究提出了一种跨模态数据编程策略，包括自然语言处理技术，用于医学机器学习模型的训练标签生成，通过仅几小时的临床医师工作即可匹配或超越医师数月手动标注的效果，为医学机器学习模型的构建提供了更快、更灵活的方法。

Mar, 2019

数据编程的成对反馈

通过将成对反馈信息纳入程序性标记数据集的潜在类变量建模过程中，即使只有很少数量的成对反馈信息源，也可以实现潜在类变量后验估计质量的显著提高。

Dec, 2019

ActiveDP: 桥接主动学习和数据编程

提出 ActiveDP 框架，结合主动学习和数据编程，生成高准确性和覆盖率的标签，优于以往弱监督和主动学习方法，在不同标注预算下表现稳定。

Feb, 2024

对抗数据编程：使用 GAN 缓解筛选标注数据的瓶颈

Adversarial Data Programming (ADP) presents an adversarial methodology to generate data and a curated aggregated label by using distant supervision signals in the form of weak labeling functions, which outperformed many state-of-the-art models on image datasets like MNIST, Fashion MNIST, CIFAR 10, and SVHN. The proposed ADP framework could also be extended for multi-task learning and transfer learning.

Mar, 2018

学习强健的聚合标注函数进行半监督数据编程

本研究提出了一种基于标签数据和未标签数据的半监督学习技术，利用标签数据产生可解释的标签函数（LFs），再通过数据编程获得大量嘈杂的标注数据，有效避免了需要大量标注数据的问题，并利用一个鲁棒的双层优化算法进行 LF 重加权，并在多个文本分类数据集上展示了效果显著的优势。

Sep, 2021

多个噪声部分标注者中学习

本文提出了一种基于概率生成模型的能够估计多个噪声偏差的部分标注工具并扩展了程序化弱监督的基础，通过对 3 个文本分类和 6 个对象分类任务的评估，证明了部分标注的效果可达到 8.6% 的平均准确率提高，进而探讨了部分标注在零样本对象分类任务中的应用以及与最新零样本学习方法相比的效果。

Jun, 2021

程序化弱监督综述

本文综述了最近在程序化弱监督（PWS）方面取得的重要进展，特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法，还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与 PWS 结合使用，最后鉴定了一些在该领域中仍未被探讨的关键挑战，希望能够激发未来的研究方向。

Feb, 2022

TagRuler：通过演示进行跨度级别数据编程的交互式工具

本文介绍了一种名为 TagRuler 的新型工具，它可以用于没有编程知识的用户进行数据注释，并通过实验证明，使用该工具可以更高效派生出适用于处理不同 NLP span-level 注释任务的标签模型。

Jun, 2021