Nov, 2019

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

TL;DR通过使用边际化双语挖掘技术在多语言句子空间内,我们能够针对百亿级别的单语语料库,挖掘出 45 亿双语句子。使用这些挖掘的数据,我们在 TED、WMT 和 WAT 的测试集上,超越了 WMT'19 的最佳结果,并且对于远程语言对(如俄语 / 日语),我们的表现非常出色。