ACLMay, 2020

通过预训练语言模型进行平行语料库过滤

TL;DR本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。