- 对大型语言模型进行微调以进行翻译:杂噪语言数据对齐是否足够?
目前在使用大型语言模型(LLM)进行细调以进行翻译方面的实践中,研究发现 LLMs 在仅用 32 个训练实例进行细调后表现出很强的翻译能力,并且单向细调能够使 LLMs 实现多方向翻译,但是选择翻译方向非常重要,使用英语在目标语言侧进行细调 - ACL多语言机器翻译的后门攻击
多语言机器翻译系统存在安全漏洞,通过在低资源语言对中注入毒数据,可以在其他语言中引发恶意翻译,攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面,希望引起人们对机器翻译系统的安全问题的重视,尤其是在低资源语言环境中。
- 多语种机器翻译中目标方传输和正则化的角色解构
多语言机器翻译(MMT)通过不同语言对之间的知识迁移而受益。本文通过在目标辅助语言方面进行大规模研究,涉及语言相似性和语料库大小等两个维度,展示了知识迁移对主要语言对的动态影响。我们发现,在语言相似的辅助目标语言中,存在强烈的正向知识迁移能 - 非流利的合成目标语言数据提高神经机器翻译
从有限的平行语料中生成合成训练样本,即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能,并且这种方法对原始训练语料的规模不敏感,从而使系统更鲁棒、产生更少的幻觉。
- 通过微型多语言并行数据释放零样本多语言翻译的极限:100 个样本能走多远?
通过对细调方法的运用,在少量多语种并行数据的基础上,我们展示了英语为中心模型的零射击能力可以轻松提升。在 EC30 数据集上,我们使用仅 100 个多语种并行样本,可以获得高达 21.7% 的非英语整体改进(870 个方向),同时保持对英语 - AfriMTE 和 AfriCOMET:推动 COMET 接纳资源匮乏的非洲语言
通过创建人工评估数据和简化的 MQM 指南,以及利用高资源语言的 DA 训练数据和 AfroXLM-Roberta 多语言编码器,我们解决了多语言机器翻译在非洲语言方面的挑战,并创建了最先进的评估指标 AfriCOMET,得到了与人工判断的 - UvA-MT 参与 WMT23 通用翻译共享任务
通过使用一种模型处理双向任务,如最小设置的多语言机器翻译(MMT),本研究展示了在 WMT 2023 共享任务中的 UvA-MT 参与者使用两个方向:英语 <-> 希伯来语,可以实现与传统双语翻译相当的结果。通过包括有效策略,如反向翻译、重 - ACL未见过语言对的混合语言文本合成
GLOSS 是一种用于语言对的代码交换文本综合的模型,它通过自适应器或额外前缀从代码交换数据中学习代码交换模式,该模型构建在预训练的多语言机器翻译模型(PMMTM)之上,它具有自我训练算法进一步提高 GLOSS 的可靠性,并且对四种语言对进 - 使用轻量级的语言特定模块压缩多语言知识
本文提出了 Language-Specific Matrix Synthesis (LMS) 方法以解决多语言机器翻译领域中语言特定模块的可扩展性问题,并通过 Fuse Distillation 技术将模块知识压缩至单个共享模块提高推理效率 - 探索多语和双语翻译模型之间的表征差异
探讨了多语言翻译中双语模型和一对多多语言模型的在表示上的几何差异,发现多语言解码器的表示比双语解码器的表示具有更低的等向性,限制了剩余的表达能力,并分析了这种差异的原因。
- 单语数据何时对多语言翻译有帮助:领域和模型规模的作用
通过实验研究了多种语言机器翻译在不同数据条件和模型尺度下,去噪自编码器和回译技术对多种语言机器翻译的影响、以及单语数据在多种语言机器翻译中的作用和数据规模对机器翻译的影响等问题。结果发现单语数据总体有益于机器翻译,但在小型模型中对领域不匹配 - 多语言翻译的像素表达和数据效率跨语言迁移
使用像素表示方法来训练多语言机器翻译模型,实现了与子字嵌入相媲美的性能,并发现像素表示具有无缝跨语言迁移和比扩展词汇等替代方法更高的数据效率
- ACL为多语机器翻译学习特定语言层
介绍了一种通过引入语言特定的变压器层来增加模型容量、提高翻译质量的方法,并通过神经架构搜索实现最佳层次排列,从而在不增加计算量和参数数量的情况下,提升 1.3 chrF (1.5 spBLEU) 或 1.9 chrF (2.2 spBLEU - 大语言模型的多语言机器翻译:实证结果和分析
本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战,并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中,本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。
- 通过敌对训练利用多语言能力在低资源神经机器翻译中的应用
本文提出了一个 DAASI 方法用于多语言语言对的句子插值, 该方法可通过学习源语言和目标语言的中间潜在表示来优化基于 GAN 的多语言翻译模型。实验证明,在低资源语言对上,该方法的表现超过了现有的最先进方法,性能提高了最多 4 BLEU - 大型多语种翻译模型中的幻觉
本研究针对大规模多语言机器翻译,分析了 M2M 常规神经机器翻译模型和通用的 ChatGPT 模型中幻觉翻译的普遍性、特性和缓解措施,以期构建更加稳定和可信的机器翻译系统。
- ACL具备语言意识的自监督学习多语言机器翻译
本文探讨了如何利用自监督学习的方法,在多语言机器翻译任务中实现参数的有利学习,其中采用了基于噪声消除的简单自监督任务,并将其与原有任务同时进行。通过这两种方法的结合,在 8 种和 15 种语言基准测试中分别比 MASS 等三种最先进的自监督 - ACL高效升级多语言机器翻译模型以支持更多语言
本论文提出了三种技术,可以加速新语言的学习并减轻灾难性遗忘,来提高多语言机器翻译模型的效率并最大化旧模型的重用,具体来说,这些技术包括仔细初始化网络、应用学习速率缩放、进行数据上采样。
- 多语言翻译干扰的原因和解决方法
本文介绍了多语言机器翻译中干扰现象的主要因素,以及如何通过控制模型大小、数据大小和采样温度来减轻干扰并提升性能。
- EMNLPSMaLL-100: 为低资源语言引入浅层多语言机器翻译模型
本篇研究介绍了 SMaLL-100 这一经过精简的、涵盖了 100 种语言的多语言机器翻译模型,并证明它在处理低资源语言方面能够超越之前的大规模多语言模型。