使用网络抓取的数据微调 Kalaallisut-英语机器翻译系统
通过将单语数据与自动背景翻译配对,我们未改变神经网络结构,使用目标语单语训练数据进行神经机器翻译(NMT)模型的训练,并在多项任务上取得最新的最优结果(最高+2.8-3.7 BLEU),并证明了使用领域单语和平行数据进行微调,对IWSLT 15任务英德翻译有实质性的改善。
Nov, 2015
通过将翻译分为生成草稿和翻译草稿的两个步骤,借助于无监督技术,我们可以快速生成无监督神经机器翻译系统。将该过程应用于14种测试语言,对于从未被用于无监督机器翻译的低资源语言,我们获得了良好的结果。
Jun, 2019
我们致力于构建一款通用的神经机器翻译系统,通过构建一个单一的大规模多语言NMT模型,实现了103种语言之间的翻译,带有有效的迁移学习能力,显着提高了低资源语言的翻译质量,同时保持高资源语言翻译质量与竞争双语基线相当,为实现通用NMT模型的质量和实用性提供了多个方面的模型构建分析,并指出未来研究的方向和需进一步解决的问题。
Jul, 2019
通过混合监督和自我监督目标的方法,实现了覆盖数百种语言的多语言机器翻译模型的构建,该方法可在零资源情况下生成高质量翻译,甚至超过低-中资源语言的监督翻译质量。
Jan, 2022
描述了我们构建跨越1000个语言翻译的实用机器翻译系统的努力,包括构建干净的数据集、使用监督并行数据训练的大规模多语言模型和单语数据集以及研究评估语言的限制和误差模式。
May, 2022
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023
通过研究低资源语言法罗语和高资源语言家族之间的语言分类、起源和进化关系,将在多语言语境下的NLP应用中常用的“一刀切”(one-size-fits-all)的翻译方式转变为提供更高的翻译准确度,同时利用丰富的斯堪的那维亚语言(丹麦语、挪威语、瑞典语和冰岛语)的资源来为Faroeese语提供支持,其结果表明可以大幅提高向低资源语言法罗语的翻译性能,并开发了一个新的web Farosee语料库,并提供命名实体识别(NER),语义文本相似度(STS)和所有斯堪的那维亚语言训练的新语言模型的数据集。
Apr, 2023
通过使用机器翻译创建合成数据(Translationese)预训练语言模型(LMs),本研究探讨了将Translationese作为一种用于预训练语言模型的可用性。我们以英语和印度语为例,将网络抓取的单语文档翻译成目标语言,然后在这些合成数据(synthetic)上用含有2800万和8500万参数的语言模型进行训练。实验证明,在下游自然语言理解和生成任务中,与基于干净数据进行预训练的语言模型相比,我们的模型性能仅差3.56%(自然语言理解任务)和1.51%(自然语言生成任务)。此外,我们提出了使用基于干净数据进行预训练的轻量级TinyLMs有效过滤合成数据的方法,从而显著提高模型性能。我们还发现,在一个微小比例(10%)的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集IndicMonoDoc是最大的单语文档级语料库,希望能够弥补英语和非英语大型语言模型性能差距。
Mar, 2024