噪声平行语料的双重条件交叉熵滤波

Sep, 2018

噪声平行语料的双重条件交叉熵滤波

Dual Conditional Cross-Entropy Filtering of Noisy Parallel Corpora

Marcin Junczys-Dowmunt

TL;DR通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数，对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集，该方法在去噪过程中实现了更高 BLEU 得分，并在 WMT2018 共享任务中获得了最高排名得分。

Abstract

In this work we introduce dual conditional cross-entropy filtering for noisy parallel data. For each sentence pair of the noisy parallel corpus we compute cross-entropy scores according to two inverse translation models trained on clean data. We penalize divergent cross-entropies and w

dual conditional cross-entropy filtering noisy parallel data bleu scores paracrawl wmt2018 shared task

发现论文，激发创造

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

使用多语言句子嵌入进行基于边际的平行语料库挖掘

提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Nov, 2018

利用短语对注入和语料过滤改进机器翻译

本论文表明，短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子，以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上，我们观察到了 NMT 系统的改进，并在 FLORES 测试数据上提高了 2.7 BLEU 分，这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。

Jan, 2023

PARADISE：利用平行数据进行多语言序列到序列预训练

该研究介绍了 PARADISE 方法，通过将多语言字典和平行语料库用于训练模型的噪声序列中，取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。

Aug, 2021

改进低资源条件下平行语料库过滤的得分组合方法

本文介绍了我们在 WMT20 句子过滤任务中的提交，通过结合每种源语言的自定义 LASER 的分数、用于区分正负配对的语义对齐的分类器的分数和任务开发套件中包含的原始分数，我们在 mBART 微调设置中取得了不错的成效，在 Pashto 和 Khmer 上相对于基线分别提高了 7% 和 5% 的 sacreBLEU 分数。

Nov, 2020

利用多语言句子嵌入进行低资源语料库过滤

本研究使用 LASER 工具包，基于编码 - 解码结构训练平行语料库，直接对多语言句子进行表征和过滤，通过与其他方法对比结果表明其在低资源及无资源情况下具有良好效果。

Jun, 2019

利用数据过滤提高低资源非洲语言的多语言翻译

使用预先训练的语言模型，并通过筛选数据集与过滤噪声数据的方法提升翻译质量，证实数据过滤方法在机器翻译中的实用性。

Oct, 2022

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018