通过预训练语言模型进行平行语料库过滤
通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子。
May, 2018
提出一种基于多语言句子嵌入的平行语料库过滤新方法,通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性,将结果与现有方法进行比较,结果表明该方法显著提高了翻译自动化水平。
Nov, 2018
通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数,对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集,该方法在去噪过程中实现了更高 BLEU 得分,并在 WMT2018 共享任务中获得了最高排名得分。
Sep, 2018
本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法,该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。
Nov, 2019
本论文表明,短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子,以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上,我们观察到了 NMT 系统的改进,并在 FLORES 测试数据上提高了 2.7 BLEU 分,这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。
Jan, 2023
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后,我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix(12.4M)上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小,但我们发现这两个模型的准确度相当,证实了使用众包进行平行数据的网络挖掘是可行的。
May, 2024
通过使用网页爬取方法和机器翻译系统,本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法,并且能够提取噪音干扰较小的平行句子。
Sep, 2015
展示了一种利用公开的课程资料进行平行语料挖掘的框架,通过动态规划的句子对齐算法和机器翻译相似度,达到了 96% 的句子对齐 F1 分数,并通过机器翻译实验证明,挖掘到的语料能提高课程讲稿翻译的质量。
Nov, 2023
通过使用边际化双语挖掘技术在多语言句子空间内,我们能够针对百亿级别的单语语料库,挖掘出 45 亿双语句子。使用这些挖掘的数据,我们在 TED、WMT 和 WAT 的测试集上,超越了 WMT'19 的最佳结果,并且对于远程语言对(如俄语 / 日语),我们的表现非常出色。
Nov, 2019