探讨语言模型架构的扩展与迁移在机器翻译中的应用
该研究表明,预训练的单一语言模型(LM4MT)可以与强大的编码器 - 解码器 NMT 模型在标准机器翻译基准测试中取得可比较的性能,LM4MT 还可以轻松利用源侧文本作为额外的监督。LM4MT 可以为源语言和目标语言提供统一的表示形式,在跨语言知识转移方面表现更好,并在基于中间语言和零样本翻译任务中获得显著的优势。
Jun, 2021
本研究探讨了将源文本和目标文本直接拼接并训练语言模型进行翻译的想法,通过对双语翻译、额外目标语单语数据翻译和多语言翻译的实验,结果表明这种替代方法与基线中的编码器 - 解码器 Transformer 模型表现相当,表明编码器 - 解码器架构对于神经机器翻译可能是多余的。
Oct, 2022
介绍了一种通过引入语言特定的变压器层来增加模型容量、提高翻译质量的方法,并通过神经架构搜索实现最佳层次排列,从而在不增加计算量和参数数量的情况下,提升 1.3 chrF (1.5 spBLEU) 或 1.9 chrF (2.2 spBLEU) 的翻译质量。
May, 2023
基于编码器 - 解码器框架的当代翻译引擎发展迅猛,而大型语言模型的出现破坏了它们的地位,提供了实现更优翻译质量的潜力。因此,了解 LLMs 是如何在何种场景下胜过传统 NMT 系统,以及如何发挥其优势,变得至关重要。本文首先进行了全面分析,评估了各种商业 NMT 系统和面向机器翻译的 LLMs 的优势和局限性。发现 NMT 系统和面向机器翻译的 LLMs 都不能有效解决所有翻译问题,但面向机器翻译的 LLMs 可以作为 NMT 系统的有希望的补充。基于这些发现,我们探索了混合方法,并提出了合作解码(CoDec)将 NMT 系统视为预翻译模型,将面向机器翻译的 LLMs 视为处理 NMT 系统无法覆盖的复杂场景的补充解决方案。在 WMT22 测试集和新收集的 WebCrawl 测试集上的结果表明,CoDec 的有效性和效率,突出了将 NMT 系统与面向机器翻译的 LLMs 相结合作为强大解决方案的潜力。
Nov, 2023
该研究介绍了 Speech-LLaMA,一种将声学信息有效地整合到基于文本的大型语言模型中的新方法,并进一步探索了仅解码器架构在语音处理任务中的应用。
Jul, 2023
本文介绍了一种利用语言特定的编码器 - 解码器完成零样本翻译的方法。通过区分语言特定的 Transformer 层和公共层,应用交叉注意力和参数共享等技术,最大化句子的普适性,以实现最佳的语义对齐,此外结合了自编码目标来实现多任务的联合训练。在两个公共的多语言平行数据集上进行实验,它们的结果具有竞争力,而且相当于从头开始联合训练模型时的结果,还表现出增量学习的能力。
Feb, 2021
提前训练的语言模型能够通过改进序列标记任务的表现,优于基于自回归语言模型的编码器,并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。
Jan, 2024
我们提出的多语言语音翻译方法可以不依赖 MultiSLT 数据集,仅基于 ASR 和 MultiNMT 数据进行训练,通过将语音编码器与 MultiNMT 架构耦合可以在零 - shot 场景下实现类似双语翻译的效果,在我们实验的四种不同语言中,通过使用适配器模块可以在提议的架构上实现 + 6 BLEU 点的一致改进和 + 1 BLEU 点的端到端基线改进。
Nov, 2020
本文提出了一种针对多语言机器翻译的替代方法,该方法基于特定于语言的编码器 - 解码器,可以更轻松地通过学习相应的模块来扩展到新语言。同时训练初始语言以促进通用 interlingua 表示,实验表明该方法平均优于通用编码器 - 解码器 3.28 BLEU 点,当添加新语言时,无需重新训练其余模块,因此推进了可灵活扩展的模块化多语机器翻译系统的发展。
Apr, 2020
通过四个语言对的实验结果,发现与共享编码器 - 解码器架构相比,语言特定的编码器 - 解码器架构表现出较少的性别偏差,并且源嵌入和注意力的可解释性分析表明,在语言特定的情况下,嵌入编码了更多的性别信息,注意力也更加分散,这两种行为有助于减轻性别偏差。
Dec, 2020