本篇论文讨论了如何利用字符噪声注入方法,将近乎无资源语言翻译成英文,使其更能够适应高资源语言,并在多种语言家族的紧密相关语言对中得到了显著的优异表现。
May, 2023
本论文提出了一种在低资源机器翻译中进行数据增强的通用框架,该框架不仅使用目标端单语数据,还通过相关高资源语言进行桥接,通过在两个步骤中使用词典和修改无监督机器翻译框架,将高资源数据转换为低资源语言,实验证明该方法在极低的资源条件下,与受监督背景转换基线相比,可将翻译质量提高 1.5 到 8 个 BLEU 点。
Jun, 2019
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
本文介绍了一种使用知识蒸馏技术以及基于高资源语言的资源有效模型实现低资源语言机器翻译的方法。在以卢森堡语为例子的实验中,资源有效模型相比于大型 NLLB 模型速度提高了 30%以上且性能仅下降了 4%。
Mar, 2023
本论文研究如何使用语言重叠来进行翻译,在仅有少量单语数据的情况下,结合去噪自编码、回译和对抗性目标,提出了一种名为 NMT-Adapt 的方法,实现了对低资源语言的翻译的提高。
May, 2021
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的 Bllossom 模型表现出优异的性能。
Mar, 2024
本文针对印度语言中不足文本资源的问题,提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法,通过音译和数据增强等技术,将限制资源语言文本转化到具备足够语料的相关语言中间站,从而提高多语言模型的适用性。
Jun, 2021
本文提出了两种优化神经网络语言模型适应新数据的方法,包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中,这两种方法均取得了显著的改进。
Dec, 2014
对于低资源语言(LRLs)来说,微调和测试多语言大型语言模型是昂贵和具有挑战性的。我们调查了微调语料库的大小、微调和测试语料库之间的领域相似性以及源语言和目标语言之间的语言相似性对模型性能的影响,结果表明领域相似性对机器翻译模型性能的预测有最重要的影响。
Feb, 2024
使用大型语言模型,无需人工注释,将合成数据集混合到现有数据集中,可以提高低资源语言的 BLEURT 模型性能。
Feb, 2023