智能双语并行文档聚焦抓取

May, 2024

Smart Bilingual Focused Crawling of Parallel Documents

Cristian García-Romero, Miquel Esplà-Gomis, Felipe Sánchez-Martínez

TL;DR通过智能爬虫方法，从互联网上下载的大量文档中更快地发现平行内容，减少无用文档的下载量，并与传统爬虫方法相比，获得更多的平行文档。

Abstract

crawling parallel texts $\unicode{x2014}$texts that are mutual translations$\unicode{x2014}$ from the Internet is usually done following a brute-force approach: documents are massively downloaded in an unguided process, and only a fraction of them end up leading to actual parallel cont

crawling parallel texts mutual translations smart crawling method language inference parallel content discovery

发现论文，激发创造

并行串：挖掘双语文本的初步研究

本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法，该方法是概念上简单，完全独立于语言且可扩展的，初步评估结果表明该方法可能足够准确，可以在不需要人工干预的情况下应用。

Aug, 1998

CCAligned：大规模跨语言网页文档对集合

利用 URL 标签指导对网络文章进行跨语言文档对齐，构建了一个大规模的网络文档数据集，使用该数据集通过基线模型进行文本内容的对齐，最终通过挖掘平行语句和测量基于挖掘数据训练的模型的机器翻译质量来证明了数据集的价值，旨在促进跨语言 NLP 研究的发展。

Nov, 2019

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

探究 Paracrawl 用于文档级神经机器翻译

本研究使用大规模平行语料库 Paracrawl 中抽取的平行段落为训练数据，研究了文档级神经机器翻译的效果，结果表明其在实际应用中优于句子级机器翻译，并且可以帮助上下文感知的代词翻译。

Apr, 2023

JParaCrawl：大规模基于 Web 的英日平行语料库

本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法，该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。

Nov, 2019

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

面向多语言大语言模型的平行语料利用方法

通过对平行语料库进行优化，可以提高多语言大型语言模型的性能，研究结果表明，过滤嘈杂的翻译是有效利用平行语料库的关键。

Jun, 2024

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019