Milimili. 通过众包收集平行数据
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后,我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix(12.4M)上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小,但我们发现这两个模型的准确度相当,证实了使用众包进行平行数据的网络挖掘是可行的。
May, 2024
本文提出了一种新的机器翻译数据集,利用 GIF 作为中介,从单语注释器中收集平行句子,从而降低了需要寻找、训练双语人员的成本,并经过内在和外在评估,发现使用 GIFs 收集的句子确实具有更高的质量。
Jun, 2021
我们介绍了 KazParC,这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库,包含 371,902 个不同领域的平行句子,是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名为 Tilmash 的神经机器翻译模型。令人惊讶的是,Tilmash 在某些情况下的性能达到或超过了行业巨头,例如 Google Translate 和 Yandex Translate,由标准评估指标(如 BLEU 和 chrF)衡量。KazParC 和 Tilmash 都可在我们的 GitHub 仓库上以 Creative Commons Attribution 4.0 国际许可证(CC BY 4.0)进行下载。
Mar, 2024
通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子。
May, 2018
本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法,该方法是概念上简单,完全独立于语言且可扩展的,初步评估结果表明该方法可能足够准确,可以在不需要人工干预的情况下应用。
Aug, 1998
使用双向方法从英语和波斯文档的维基百科中提取平行句子,使用机器翻译系统将波斯文翻译成英文,反之亦然,然后使用 IR 系统测量翻译后句子的相似度,并将提取的句子加入现有 SMT 系统的训练数据,以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子,已按其相似度由 IR 系统计算排序,并可在 Web 上免费访问。
Nov, 2017
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
通过使用网页爬取方法和机器翻译系统,本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法,并且能够提取噪音干扰较小的平行句子。
Sep, 2015