使用弱监督进行段落排名
研究了在没有任何标注数据的情况下,通过多种易于提供的规则作为多种弱监督源,学习神经文本分类器的问题,提出了一种标签降噪器,它使用条件软注意机制估计源的可靠性,然后通过聚合注释的弱标签降低标签噪声,然后使用这些清理过的伪标签来训练神经分类器。在情感,主题和关系分类的五个基准测试上进行了评估,结果表明,该模型始终优于最先进的弱监督和半监督方法,并且即使没有任何标注数据,也可以达到与全监督方法相当的性能水平。
Oct, 2020
该研究提出了一种通用的技术,以实现对任何标签类型的弱监督,同时仍提供实用灵活性、计算效率和理论保证,并应用于以往没有使用弱监督框架解决的重要问题,包括排序学习、回归和超似曲空间中的学习。
Dec, 2021
该研究提出了一种半监督学习方法,利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练,在大量弱注释未标注数据上优化目标网络,同时用置信网络的分数来加权目标网络的梯度更新,以避免噪声标签对目标网络模型的质量造成损害,并在评估中证明其相对基线的性能得到提高,同时从弱标签中提高了学习速度。
Nov, 2017
本文提出了利用元学习框架解决弱监督下的释义生成任务,并通过检索式的伪释义扩展获取大量弱标注平行句子,进而选择有价值的样本对预训练语言模型 BART 进行微调,从而生成高质量释义的方法,与目前的无监督学习方法相比具有显著的改进。
Sep, 2021
本文介绍了两种减少训练数据需求的方法:一种是通过众包方法生成标签,并去除有害数据;另一种则是使用学习排序模型生成训练数据。这些方法使我们要比以前更少的训练数据即可超越无监督基准的表现。
Jul, 2019
本研究提出了基于神经网络的句子排名模型,在选择句子时考虑了其语法依赖和语义表达,并使用弱监督技术进行了大规模训练,结果表明模型的效果在多个评价指标上均优于现有基线方法,通过实证分析发现值得检查的句子中的语法依赖项相较于非检查句子具有明显的重叠规律。
Mar, 2019