Nov, 2017
ParaNMT-50M:用数百万机器翻译推进释义句嵌入的极限
Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of
Machine Translations
TL;DR使用神经机器翻译将大型平行语料库的非英语部分翻译为英语,生成超过五千万个英语句子的同义句数据集PARANMT-50M,该数据集可用于同义句生成,提供丰富的语义知识以改善下游自然语言理解任务。我们使用PARANMT-50M训练了同义句嵌入,能在所有SemEval基于语义相似度的比赛中胜过所有监督系统,并展示了它在同义句生成中的应用。