使用多语言句子嵌入进行基于边际的平行语料库挖掘

ACLNov, 2018

使用多语言句子嵌入进行基于边际的平行语料库挖掘

Margin-based Parallel Corpus Mining with Multilingual Sentence Embeddings

Mikel Artetxe, Holger Schwenk

TL;DR提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Abstract

machine translation is highly sensitive to the size and quality of the training data, which has led to an increasing interest in collecting and filtering large →

machine translation multilingual sentence embeddings parallel corpora cosine similarity filtering

发现论文，激发创造

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019

使用双向双编码器和加性边界 softmax 改进多语言句子嵌入

本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法，能够在联合国 (UN) 平行语料库检索任务上取得最先进的结果，并使用检索到的语言对训练 NMT 模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实验，能在 UN 文档级别检索任务中取得 97% 以上的 P@1。最后，我们在 BUCC 挖掘任务上评估了所提出的模型，利用原始余弦相似度得分的学习嵌入与当前最先进的模型相比取得了有竞争力的结果，并利用第二阶段的评分器在此任务上实现了新的最先进水平。

Feb, 2019

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

展示了一种利用公开的课程资料进行平行语料挖掘的框架，通过动态规划的句子对齐算法和机器翻译相似度，达到了 96% 的句子对齐 F1 分数，并通过机器翻译实验证明，挖掘到的语料能提高课程讲稿翻译的质量。

Nov, 2023

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子，共提取了 1.35 亿个平行句子，并且在 1886 种语言对上训练神经机器翻译基线系统，取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练，而不需要通过英语来进行桥接。

Jul, 2019

利用多语言句子嵌入进行低资源语料库过滤

本研究使用 LASER 工具包，基于编码 - 解码结构训练平行语料库，直接对多语言句子进行表征和过滤，通过与其他方法对比结果表明其在低资源及无资源情况下具有良好效果。

Jun, 2019