迭代数据编程扩展文本分类语料库
为解决有限数据训练集的问题,本研究提出一种名为 Data Programming 的范式,通过弱监督策略和领域启发式标注函数生成训练集,以生成模型表示训练集的标注过程并降噪,探讨数据编程在监督学习中的应用及在 TAC-KBP 数据集上的检测等实验与研究。
May, 2016
本文提出了一种半监督的数据编程范式,使用规则 / 标注函数和半监督损失函数基于特征空间学习联合模型,此外,还研究了在联合半监督数据编程目标之上进行子集选择的模型,并在七个公开数据集上表现显著优于其他状态下的模型。
Aug, 2020
该研究提出了一种跨模态数据编程策略,包括自然语言处理技术,用于医学机器学习模型的训练标签生成,通过仅几小时的临床医师工作即可匹配或超越医师数月手动标注的效果,为医学机器学习模型的构建提供了更快、更灵活的方法。
Mar, 2019
Adversarial Data Programming (ADP) presents an adversarial methodology to generate data and a curated aggregated label by using distant supervision signals in the form of weak labeling functions, which outperformed many state-of-the-art models on image datasets like MNIST, Fashion MNIST, CIFAR 10, and SVHN. The proposed ADP framework could also be extended for multi-task learning and transfer learning.
Mar, 2018
本研究提出了一种基于标签数据和未标签数据的半监督学习技术,利用标签数据产生可解释的标签函数(LFs),再通过数据编程获得大量嘈杂的标注数据,有效避免了需要大量标注数据的问题,并利用一个鲁棒的双层优化算法进行 LF 重加权,并在多个文本分类数据集上展示了效果显著的优势。
Sep, 2021
本文提出了一种基于概率生成模型的能够估计多个噪声偏差的部分标注工具并扩展了程序化弱监督的基础,通过对 3 个文本分类和 6 个对象分类任务的评估,证明了部分标注的效果可达到 8.6% 的平均准确率提高,进而探讨了部分标注在零样本对象分类任务中的应用以及与最新零样本学习方法相比的效果。
Jun, 2021
本文综述了最近在程序化弱监督(PWS)方面取得的重要进展,特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法,还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与 PWS 结合使用,最后鉴定了一些在该领域中仍未被探讨的关键挑战,希望能够激发未来的研究方向。
Feb, 2022
本文介绍了一种名为 TagRuler 的新型工具,它可以用于没有编程知识的用户进行数据注释,并通过实验证明,使用该工具可以更高效派生出适用于处理不同 NLP span-level 注释任务的标签模型。
Jun, 2021