Sep, 2019
Unicoder:通过多语种交叉训练预训练的通用语言编码器
Unicoder: A Universal Language Encoder by Pre-training with Multiple
Cross-lingual Tasks
TL;DRUnicoder是一种机器学习算法,可对自然语言进行编码,进而实现输出不同语言的任务。该方法提出了三种新的跨语言预训练任务,包括跨语言词汇恢复、跨语言近义词分类和跨语言掩码语言模型。作者还发现在多种语言上进行微调可以进一步提高性能。作者在两个任务上进行了实验,包括跨语言自然语言推断和跨语言问答,并且在新的跨语言问答数据集上实现了5.5%的精确度提高。