利用众包进行网络挖掘的日中平行语料库

May, 2024

利用众包进行网络挖掘的日中平行语料库

A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining

Masaaki Nagata, Makoto Morishita, Katsuki Chousa, Norihito Yasuda

TL;DR使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

Abstract

Using crowdsourcing, we collected more than 10,000 URL pairs (parallel top page pairs) of bilingual websites that contain parallel documents and created a Japanese-Chinese →

crowdsourcing parallel corpus bilingual websites sentence alignment translation accuracy

发现论文，激发创造

JParaCrawl：大规模基于 Web 的英日平行语料库

本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法，该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。

Nov, 2019

JParaCrawl v3.0：大规模英日平行语料库

本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0，其包括超过 2100 万个独特的平行句对，证明它可以提高各种领域机器翻译模型的准确性，并将在将来公开发布。

Feb, 2022

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019

CCAligned：大规模跨语言网页文档对集合

利用 URL 标签指导对网络文章进行跨语言文档对齐，构建了一个大规模的网络文档数据集，使用该数据集通过基线模型进行文本内容的对齐，最终通过挖掘平行语句和测量基于挖掘数据训练的模型的机器翻译质量来证明了数据集的价值，旨在促进跨语言 NLP 研究的发展。

Nov, 2019

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子，共提取了 1.35 亿个平行句子，并且在 1886 种语言对上训练神经机器翻译基线系统，取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练，而不需要通过英语来进行桥接。

Jul, 2019

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

展示了一种利用公开的课程资料进行平行语料挖掘的框架，通过动态规划的句子对齐算法和机器翻译相似度，达到了 96% 的句子对齐 F1 分数，并通过机器翻译实验证明，挖掘到的语料能提高课程讲稿翻译的质量。

Nov, 2023

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

并行串：挖掘双语文本的初步研究

本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法，该方法是概念上简单，完全独立于语言且可扩展的，初步评估结果表明该方法可能足够准确，可以在不需要人工干预的情况下应用。

Aug, 1998

使用多语言句子嵌入进行基于边际的平行语料库挖掘

提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Nov, 2018