提出一种基于多语言句子嵌入的平行语料库过滤新方法,通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性,将结果与现有方法进行比较,结果表明该方法显著提高了翻译自动化水平。
Nov, 2018
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
通过使用边际化双语挖掘技术在多语言句子空间内,我们能够针对百亿级别的单语语料库,挖掘出 45 亿双语句子。使用这些挖掘的数据,我们在 TED、WMT 和 WAT 的测试集上,超越了 WMT'19 的最佳结果,并且对于远程语言对(如俄语 / 日语),我们的表现非常出色。
Nov, 2019
该研究提出了一种有效的并行语料库挖掘方法,使用双语句子嵌入进行训练,通过引入硬负例来实现。该方法是基于语义相似度的,结果表明该方法可以用于重建平行文本,从而训练出 NMT 模型,与使用原始数据训练的模型相差不大。
Jul, 2018
使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子,共提取了 1.35 亿个平行句子,并且在 1886 种语言对上训练神经机器翻译基线系统,取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练,而不需要通过英语来进行桥接。
Jul, 2019
本论文表明,短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子,以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上,我们观察到了 NMT 系统的改进,并在 FLORES 测试数据上提高了 2.7 BLEU 分,这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。
Jan, 2023
使用预先训练的语言模型,并通过筛选数据集与过滤噪声数据的方法提升翻译质量,证实数据过滤方法在机器翻译中的实用性。
Oct, 2022
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数,对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集,该方法在去噪过程中实现了更高 BLEU 得分,并在 WMT2018 共享任务中获得了最高排名得分。
Sep, 2018
该研究提出了一种基于双向循环神经网络的并行句子抽取方法,旨在解决多语言自然语言处理应用中数据稀疏性的问题。通过从维基百科文章中提取句子对来训练机器翻译系统,实验证明采用该方法能够显著提高翻译性能。
Jun, 2018