ACLJun, 2024

对句级双语的恢复文档注释

TL;DR我们对德语、法语、西班牙语、意大利语、波兰语和葡萄牙语的三个大规模数据集(ParaCrawl、新闻评论和 Europarl)进行了文档级信息的重建,并引入了文档级过滤技术作为传统双语过滤的替代方法。我们通过分析表明,该方法偏好于与上下文一致的翻译,而不是可能是句级机器翻译的翻译。最后,我们在这些更长的上下文上训练模型,并证明了文档级翻译的改进而不降低句级翻译。我们将我们的数据集 ParaDocs 和生成的模型作为资源发布给社区。