May, 2018

在联合多语言空间中过滤和挖掘并行数据

TL;DR通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子。