改进的英语到乌克兰语机器翻译数据打印机设定
利用乌克兰数据集对开源 Gemme 和 Mistral 语言模型进行微调,以提高其语言能力,并与其他处理乌克兰语的模型进行基准比较。该研究旨在减少技术中的语言偏见,促进数字领域的包容性。通过透明且可复现的方法鼓励进一步的 NLP 研究与发展,同时提出乌克兰知识与指令数据集(UKID)以支持未来的语言模型微调工作。本研究推动了自然语言处理领域的发展,并凸显了 AI 中语言多样性的重要性,对文化保护、教育和全球 AI 的扩展至关重要。最终,我们呼吁实现一种包容性的技术未来,使 AI 能够在所有语言,特别是目前少数代表的语言中有效地进行交流。
Apr, 2024
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
本文研究了使用机器翻译(MT)为大规模语音控制设备的新语言引导自然语言理解(NLU)系统的使用情况,并探讨了不同的 MT 数据过滤方法以及语言特定的后处理方法在大规模 NLU 任务中的应用。结果表明,使用 MT 数据可以大大提高 NLU 的性能并减少人工工作量。
May, 2018
本研究探讨了数据量和使用类似语言对于机器翻译任务中的迁移学习的影响,研究发现,在迁移学习中,拥有更多的数据通常会导致更好的性能,然而,相关语言在特定语言对的数据有限时也可以特别有效,最终通过使用 OPUS-100 数据集对 mBART 模型进行微调来证明结果。实验表明,相关语言和更多的数据的组合比单独使用两者能够更好的提高模型性能,同时还表明了相关语言在零样本和小样本时的重要性。
Jun, 2023
本研究建立了一种真正的 Many-to-Many 多语言翻译模型,可以直接在 100 种语言之间进行翻译,并通过密集扩展和语言特定的稀疏参数提高模型质量,优于 WMT 单一系统的表现。
Oct, 2020
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
本文介绍了我们在德英(DE-EN)、英捷(EN-CS)和中英(ZH-EN)语言对上提交给 WMT 2023 术语共享任务的方法,通过使用大型语言模型(LLMs)生成二语合成数据并将预批准术语整合入机器翻译(MT)中,成功地提高了术语的使用率。
Oct, 2023
本文介绍了 NVIDIA NeMo 神经机器翻译系统在 WMT21 新闻和生物医学共享翻译任务的受限数据跟踪中的运用,其中新闻任务的提交在 Transform 器基础的序列到序列模型上,采用了多项技术手段并且获得了比去年任务最佳提交更好的表现,生物医学任务的提交则采取了医学相关文本来源和生物医学数据的训练集,而两个系统都在测试集上超越了去年任务的最佳提交。
Nov, 2021
本文介绍了一种针对数据有限的语言的新的通用机器翻译方法,利用迁移学习的方法,在多源语言之间共享词汇和句子级别的表示,从而帮助低资源的语言利用高资源语言的词汇和句子表示,在罗马尼亚语 - 英语 WMT2016 上,我们的方法在 6k 的平行语料库上能够获得 23 BLEU 分数,远高于使用多语言训练和反向翻译的强基线系统的 18 BLEU 分数,此外,我们还展示了该方法可以在零样本条件下对同一数据集进行微调,达到接近 20 BLEU 的分数。
Feb, 2018