Nov, 2017

ParaNMT-50M:用数百万机器翻译推进释义句嵌入的极限

TL;DR使用神经机器翻译将大型平行语料库的非英语部分翻译为英语,生成超过五千万个英语句子的同义句数据集 PARANMT-50M,该数据集可用于同义句生成,提供丰富的语义知识以改善下游自然语言理解任务。我们使用 PARANMT-50M 训练了同义句嵌入,能在所有 SemEval 基于语义相似度的比赛中胜过所有监督系统,并展示了它在同义句生成中的应用。