构建主题对齐的可比较语料库并挖掘其中真正的平行句对

Sep, 2015

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

Building Subject-aligned Comparable Corpora and Mining it for Truly Parallel Sentence Pairs

Krzysztof Wołk, Krzysztof Marasek

TL;DR通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Abstract

parallel sentences are a relatively scarce but extremely useful resource for many applications including cross-lingual retrieval and statistical machine translation. This research explores our methodology for mining such data from previously obtained →

parallel sentences comparable corpora web crawling machine translation noise filtering

发现论文，激发创造

从可比语料库中提取英波斯平行语料库

使用双向方法从英语和波斯文档的维基百科中提取平行句子，使用机器翻译系统将波斯文翻译成英文，反之亦然，然后使用 IR 系统测量翻译后句子的相似度，并将提取的句子加入现有 SMT 系统的训练数据，以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子，已按其相似度由 IR 系统计算排序，并可在 Web 上免费访问。

Nov, 2017

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子，共提取了 1.35 亿个平行句子，并且在 1886 种语言对上训练神经机器翻译基线系统，取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练，而不需要通过英语来进行桥接。

Jul, 2019

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

使用多语言句子嵌入进行基于边际的平行语料库挖掘

提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Nov, 2018

利用双向递归神经网络提取平行句子以改善机器翻译

该研究提出了一种基于双向循环神经网络的并行句子抽取方法，旨在解决多语言自然语言处理应用中数据稀疏性的问题。通过从维基百科文章中提取句子对来训练机器翻译系统，实验证明采用该方法能够显著提高翻译性能。

Jun, 2018

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

展示了一种利用公开的课程资料进行平行语料挖掘的框架，通过动态规划的句子对齐算法和机器翻译相似度，达到了 96% 的句子对齐 F1 分数，并通过机器翻译实验证明，挖掘到的语料能提高课程讲稿翻译的质量。

Nov, 2023