ACLApr, 2020

预训练语言模型中的无监督域聚类

TL;DR本文提出了一种基于大规模预训练语言模型的领域数据选择方法,通过度量句子的隐式相似性进行聚类,仅需要少量数据即可有效提高神经机器翻译的准确性。