数据编程的成对反馈
为解决有限数据训练集的问题,本研究提出一种名为 Data Programming 的范式,通过弱监督策略和领域启发式标注函数生成训练集,以生成模型表示训练集的标注过程并降噪,探讨数据编程在监督学习中的应用及在 TAC-KBP 数据集上的检测等实验与研究。
May, 2016
本文提出了一种基于概率生成模型的能够估计多个噪声偏差的部分标注工具并扩展了程序化弱监督的基础,通过对 3 个文本分类和 6 个对象分类任务的评估,证明了部分标注的效果可达到 8.6% 的平均准确率提高,进而探讨了部分标注在零样本对象分类任务中的应用以及与最新零样本学习方法相比的效果。
Jun, 2021
本文综述了最近在程序化弱监督(PWS)方面取得的重要进展,特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法,还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与 PWS 结合使用,最后鉴定了一些在该领域中仍未被探讨的关键挑战,希望能够激发未来的研究方向。
Feb, 2022
该研究采用数据编程方法,使用基于邻域的弱模型来扩充文本数据集,并通过迭代的过程从大量未标记的数据中鉴别出稀疏分布的例子,并以人为中心确认这些标记数据的过程中,不断改进新的弱模型。研究结果表明,该方法可以显著提高文本分类任务的准确性。
Feb, 2020
该研究论文展开了交互式弱监督学习框架的研究,该框架中,方法提议启发式方法并从用户每个被提议的启发式反馈中学习,其实验表明只需要少量的反馈迭代就可以训练模型达到高竞争的测试集性能,而不需要访问本文中使用的标签数据。
Dec, 2020
本研究提出了一种基于标签数据和未标签数据的半监督学习技术,利用标签数据产生可解释的标签函数(LFs),再通过数据编程获得大量嘈杂的标注数据,有效避免了需要大量标注数据的问题,并利用一个鲁棒的双层优化算法进行 LF 重加权,并在多个文本分类数据集上展示了效果显著的优势。
Sep, 2021
提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
本研究旨在探讨如何通过从用户中收集排名决策策略来参与算法设计,以替代传统需要人工标记成本高昂的方法,并借助两个用例的实证数据表明,我们提出的弱监督学习方法可以几乎与完全监督方法一样准确地理解用户的偏好和选择。
May, 2020