Milimili. 通过众包收集平行数据

Jul, 2023

Milimili. Collecting Parallel Data via Crowdsourcing

Alexander Antonov

TL;DR通过众包的方法，我们提供了一种收集平行语料库的方法，尽管牺牲了质量，但它比雇佣专业翻译人员更具成本效益。此外，我们还提供了收集的车臣语 - 俄语和富拉语 - 英语语言对的实验性平行数据。

Abstract

We present a methodology for gathering a parallel corpus through crowdsourcing, which is more cost-effective than hiring professional tran

parallel corpus crowdsourcing cost-effective professional translators experimental parallel data

发现论文，激发创造

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024

不要排除掉单语言说话者：一种众包机器翻译数据的方法

本文提出了一种新的机器翻译数据集，利用 GIF 作为中介，从单语注释器中收集平行句子，从而降低了需要寻找、训练双语人员的成本，并经过内在和外在评估，发现使用 GIFs 收集的句子确实具有更高的质量。

Jun, 2021

KazParC: 机器翻译用的哈萨克平行语料库

我们介绍了 KazParC，这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库，包含 371,902 个不同领域的平行句子，是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名为 Tilmash 的神经机器翻译模型。令人惊讶的是，Tilmash 在某些情况下的性能达到或超过了行业巨头，例如 Google Translate 和 Yandex Translate，由标准评估指标（如 BLEU 和 chrF）衡量。KazParC 和 Tilmash 都可在我们的 GitHub 仓库上以 Creative Commons Attribution 4.0 国际许可证（CC BY 4.0）进行下载。

Mar, 2024

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

并行串：挖掘双语文本的初步研究

本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法，该方法是概念上简单，完全独立于语言且可扩展的，初步评估结果表明该方法可能足够准确，可以在不需要人工干预的情况下应用。

Aug, 1998

众包改写收集中任务设计权衡的理解

本研究是对众包方法进行语义重述数据采集的系统研究，旨在探讨任务设计中准确性和多样性之间的平衡关系，并提出未来语义重述集采集的指导意见。

Apr, 2017

从可比语料库中提取英波斯平行语料库

使用双向方法从英语和波斯文档的维基百科中提取平行句子，使用机器翻译系统将波斯文翻译成英文，反之亦然，然后使用 IR 系统测量翻译后句子的相似度，并将提取的句子加入现有 SMT 系统的训练数据，以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子，已按其相似度由 IR 系统计算排序，并可在 Web 上免费访问。

Nov, 2017

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

面向多语言大语言模型的平行语料利用方法

通过对平行语料库进行优化，可以提高多语言大型语言模型的性能，研究结果表明，过滤嘈杂的翻译是有效利用平行语料库的关键。

Jun, 2024