JParaCrawl：大规模基于 Web 的英日平行语料库

Nov, 2019

JParaCrawl：大规模基于 Web 的英日平行语料库

JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus

Makoto Morishita, Jun Suzuki, Masaaki Nagata

TL;DR本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法，该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。

Abstract

Recent machine translation algorithms mainly rely on parallel corpora. However, since the availability of parallel corpora remains limited

machine translation parallel corpora english-japanese neural machine translation pre-training

发现论文，激发创造

JParaCrawl v3.0：大规模英日平行语料库

本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0，其包括超过 2100 万个独特的平行句对，证明它可以提高各种领域机器翻译模型的准确性，并将在将来公开发布。

Feb, 2022

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

探究 Paracrawl 用于文档级神经机器翻译

本研究使用大规模平行语料库 Paracrawl 中抽取的平行段落为训练数据，研究了文档级神经机器翻译的效果，结果表明其在实际应用中优于句子级机器翻译，并且可以帮助上下文感知的代词翻译。

Apr, 2023

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

展示了一种利用公开的课程资料进行平行语料挖掘的框架，通过动态规划的句子对齐算法和机器翻译相似度，达到了 96% 的句子对齐 F1 分数，并通过机器翻译实验证明，挖掘到的语料能提高课程讲稿翻译的质量。

Nov, 2023

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

商务对话语料库设计

本文旨在通过引入一个新构建的日英商务会话平行语料库，提高会话文本的机器翻译质量，并分析了该语料库，列举了自动翻译的具有挑战性的实例。同时，本文还试图将语料库添加到机器翻译训练中，并展示了基于该语料库训练的系统的优势。

Aug, 2020

KazParC: 机器翻译用的哈萨克平行语料库

我们介绍了 KazParC，这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库，包含 371,902 个不同领域的平行句子，是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名为 Tilmash 的神经机器翻译模型。令人惊讶的是，Tilmash 在某些情况下的性能达到或超过了行业巨头，例如 Google Translate 和 Yandex Translate，由标准评估指标（如 BLEU 和 chrF）衡量。KazParC 和 Tilmash 都可在我们的 GitHub 仓库上以 Creative Commons Attribution 4.0 国际许可证（CC BY 4.0）进行下载。

Mar, 2024

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019

并行串：挖掘双语文本的初步研究

本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法，该方法是概念上简单，完全独立于语言且可扩展的，初步评估结果表明该方法可能足够准确，可以在不需要人工干预的情况下应用。

Aug, 1998