自适应稀疏 Transformer 多语言翻译

Apr, 2021

Adaptive Sparse Transformer for Multilingual Translation

Hongyu Gong, Xian Li, Dmitriy Genzel

TL;DR通过采用自适应的、稀疏的多语言建模结构，实现共享参数和语言特定参数的学习，提高正向转移和减轻干扰，从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比，我们在多项基准测试中的表现都超过了强基准，特别是在使用 100 种语言的大规模 OPUS 数据集时，对于一对多、多对一和零 shot 任务分别提高了 2.1、1.3 和 6.2 BLEU 分数，未增加推理成本。

Abstract

multilingual machine translation has attracted much attention recently due to its support of knowledge transfer among languages and the low cost of training and deployment compared with numerous bilingual models. A known challenge of multilingual models is the →

multilingual machine translation negative language interference adaptive and sparse architecture shared and language-specific parameters inference efficiency

发现论文，激发创造

训练稀疏翻译模型的技巧

本文提出了使用 BASELayers 的稀疏缩放架构来缓解多任务学习中高资源任务偏差的问题，并通过温度加热机制和密集预训练两种技术来提高多语言机器翻译的性能。该方法在两个多语言翻译基准测试中的收敛速度比标准的 BASELayers 和密集缩放基线快了两倍以上。

Oct, 2021

用于跨语言迁移的可组合稀疏微调

本研究提出了一种新的微调方法，使用模板细分，减少模型参数，并结合多种语言的神经网络，取得了优于适配器微调的零 - shot 跨语言转移性能。

Oct, 2021

利用参数高效的迁移学习进行多语言文本到语音调整

在多种语言环境中，为了有效地合成语音，开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中，将参数高效的迁移学习方法（如适配器和超网络）与 TTS 架构集成的方法，并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好，参数数量仅为总参数的约 2.5%。

Jun, 2024

使用适配器实现跨语言稠密检索的高效零 - shot 转移

本文研究了利用 adapters 实现单语言检索模型的跨语言迁移，证明了使用 adapters 的密集检索模型在语言迁移方面比整个模型 fine-tuning 更加有效。

Dec, 2022

多语言神经机器翻译的语言家族适配器

本文提出在预训练的多语言模型上训练语言家族适配器，以促进跨语言转移。该模型一致优于其他基于适配器的方法，并证明了语言家族适配器提供了一种有效的将语言翻译到预训练期间未见过的语言的方法。

Sep, 2022

超级适配器多语言机器翻译

本文介绍了通过使用超适配器，克服多种语言间负面干扰和参数共享问题。研究表明，相比于传统适配器，超适配器具有更少的参数数量和更好的性能表现，且能够促进跨语言的积极转移。

May, 2022

多语言机器翻译抗干扰适配器

本文介绍了 CIAT，一种用于多语言机器翻译的改进型 Transformer 模型，通过在多个基准数据集上的实验，我们发现 CIAT 在 64 个 66 种语言方向上性能优于强大的多语言基准线，其中 42 个方向的 BLEU 提高超过 0.5。

Apr, 2021

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

为多语言机器翻译学习特定语言子网络

本文提出了 LaSS 方法，采用 LaSS 解决了共同训练多个语言对的性能退化问题，LaSS 利用自己的语言特定子网络为每个语言对学习。在各种变压器体系结构的 IWSLT 和 WMT 数据集上展开全面的实验后发现，LaSS 在 36 种语言对上最多获得 1.2BLEU 的增益，并且在易于扩展到新语言对和零炮击翻译方面表现出强大的泛化性能。LaSS 通过一个 30 种语言对平均为 8.3 BLEU 的零炮击翻译推动性。

May, 2021

轻量级适配器调整用于多语言语音翻译

本文为多语言语音翻译（ST）提供了适配器的完整分析，其中适配器调整在 NLP 中作为微调的高效替代品，可使 ST 针对特定语言对进行专门优化，并从自动语音识别（ASR）任务和预先训练的 mBART 模型中进行转移，同时节省大量参数，具有与完全微调相当的可比结果。

Jun, 2021