Sep, 2018

弱监督神经文本分类

TL;DR本文提出了一种弱监督文本分类方法,其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块,具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点,并在三个真实数据集上进行了广泛的实验,结果表明其大幅优于基准方法而不需要过多的训练数据。