在联合多语言空间中过滤和挖掘并行数据

May, 2018

在联合多语言空间中过滤和挖掘并行数据

Filtering and Mining Parallel Data in a Joint Multilingual Space

Holger Schwenk

TL;DR通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

Abstract

We learn a joint multilingual sentence embedding and use the distance between sentences in different languages to filter noisy parallel data and to mine for parallel data in large news collections. We are able to

multilingual sentence embedding parallel data filtering news collections machine translation comparable corpora

发现论文，激发创造

使用多语言句子嵌入进行基于边际的平行语料库挖掘

提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Nov, 2018

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子，共提取了 1.35 亿个平行句子，并且在 1886 种语言对上训练神经机器翻译基线系统，取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练，而不需要通过英语来进行桥接。

Jul, 2019

利用短语对注入和语料过滤改进机器翻译

本论文表明，短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子，以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上，我们观察到了 NMT 系统的改进，并在 FLORES 测试数据上提高了 2.7 BLEU 分，这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。

Jan, 2023

利用数据过滤提高低资源非洲语言的多语言翻译

使用预先训练的语言模型，并通过筛选数据集与过滤噪声数据的方法提升翻译质量，证实数据过滤方法在机器翻译中的实用性。

Oct, 2022

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

噪声平行语料的双重条件交叉熵滤波

通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数，对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集，该方法在去噪过程中实现了更高 BLEU 得分，并在 WMT2018 共享任务中获得了最高排名得分。

Sep, 2018

利用双向递归神经网络提取平行句子以改善机器翻译

该研究提出了一种基于双向循环神经网络的并行句子抽取方法，旨在解决多语言自然语言处理应用中数据稀疏性的问题。通过从维基百科文章中提取句子对来训练机器翻译系统，实验证明采用该方法能够显著提高翻译性能。

Jun, 2018