Oct, 2020

神经文本分类的去噪多源弱监督训练

TL;DR研究了在没有任何标注数据的情况下,通过多种易于提供的规则作为多种弱监督源,学习神经文本分类器的问题,提出了一种标签降噪器,它使用条件软注意机制估计源的可靠性,然后通过聚合注释的弱标签降低标签噪声,然后使用这些清理过的伪标签来训练神经分类器。在情感,主题和关系分类的五个基准测试上进行了评估,结果表明,该模型始终优于最先进的弱监督和半监督方法,并且即使没有任何标注数据,也可以达到与全监督方法相当的性能水平。