ACLJun, 2019

变分预训练用于半监督文本分类

TL;DR介绍了 VAMPIRE,这是一个轻量级的预训练框架,可用于在数据和计算资源有限的情况下进行有效的文本分类。使用无标记的领域内语料库通过变分自编码器实现 unigram 文档模型的预训练,并将其内部状态作为下游分类器的特征。在低资源情况下,我们经验证明 VAMPIRE 相对于昂贵的上下文嵌入和其他流行的半监督基线的优势。我们还发现,在有限的监督条件下,微调领域内数据对于从上下文嵌入中实现良好性能至关重要。伴随本文提供了预训练 VAMPIRE 嵌入的代码。