Sep, 2018

噪声平行语料的双重条件交叉熵滤波

TL;DR通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数,对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集,该方法在去噪过程中实现了更高 BLEU 得分,并在 WMT2018 共享任务中获得了最高排名得分。