Transformer 语言适配器的隐藏空间

Feb, 2024

The Hidden Space of Transformer Language Adapters

Jesujoba O. Alabi, Marius Mosbach, Matan Eyal, Dietrich Klakow, Mor Geva

TL;DR通过分析变压器语言适配器的操作，我们表明适应某个新的目标语言的预测主要在模型训练时所使用的源语言上进行了演化，而目标语言仅在模型的最后几层中变得明显。此外，适应过程是渐进的，并分布在各个层次上，可以跳过少量适配器而不降低适应性能。最后，我们发现适配器在模型的冻结表示空间上操作，同时在很大程度上保留其结构，而不是在 “独立” 的子空间上操作。我们的研究结果深入了解了语言模型对新语言的适应过程，展示了底层模型所施加的约束，并引入了增强其效率的实际应用意义。

Abstract

We analyze the operation of transformer language adapters, which are small modules trained on top of a frozen language model to adapt its predictions to new target languages. We show that adapted →

transformer language adapters predictions source language target language adaptation process

发现论文，激发创造

跨语言 NLU 中的语言适配器的影响

在不存在语言的监督数据的情况下，本文研究了语言适配器在自然语言理解任务中零样本跨语言转移中的作用，通过对两个多语言模型和三个多语言数据集的详尽消融研究，结果表明目标语言适配器在任务、语言和模型间影响高度不一致。相比之下，保留源语言适配器通常能够获得相当甚至更好的性能，训练后去除语言适配器只有较弱的负面影响，表明语言适配器对于预测结果的影响并不显著。

Jan, 2024

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

超级适配器多语言机器翻译

本文介绍了通过使用超适配器，克服多种语言间负面干扰和参数共享问题。研究表明，相比于传统适配器，超适配器具有更少的参数数量和更好的性能表现，且能够促进跨语言的积极转移。

May, 2022

透过 Adapter 实现基于预训练语言模型的强大迁移学习

本文提出了一种简单而有效的适配器方法来提高预训练模型在下游任务的稳定性和抗攻击性。该方法为预训练模型的每层插入小型的瓶颈层，然后在下游任务数据上固定预训练层并训练适配器层，通过在任务特定的无监督训练和监督训练 (e.g., 分类、序列标注) 的过程中，提高了转移学习的性能。

Aug, 2021

多语言神经机器翻译的语言家族适配器

本文提出在预训练的多语言模型上训练语言家族适配器，以促进跨语言转移。该模型一致优于其他基于适配器的方法，并证明了语言家族适配器提供了一种有效的将语言翻译到预训练期间未见过的语言的方法。

Sep, 2022

揭示 Transformer 模型中的多语言性：探索前向网络中的语言特征

通过分析 Transformer 中的前向模块，研究表明其可以被视为一系列键值记忆，提出了关于多语言模型中神经元对不同语言的响应不平等的假设，并通过实验证实了此假设。

Oct, 2023

神经网络语言模型的增量适应策略

本文提出了两种优化神经网络语言模型适应新数据的方法，包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中，这两种方法均取得了显著的改进。

Dec, 2014

定位潜在更新用于微调视觉语言模型

提出一种轻量级的适配器方法，通过更新预测接近观察数据点的模型以加快更新速度，并保持经典微调方法外数据的正确性，以实现在小样本学习领域中，在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。

Dec, 2022

多语音识别中的代码切换适配器适应

本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法，并将代码转换建模为一系列潜在的二进制序列，以引导每个语言适配器在帧级别上的信息流，通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估，显示出代码转换性能的持续改进，至少可以将语音识别错误率 (CER) 降低 10％。

Oct, 2023

适用于转换器 ASR 的可适应多域语言模型

提出了基于适配器的多域 Transformer 语言模型，在只有小型适配器及其相关层的情况下，该模型可以进行多域自适应，并可以重复使用全细调的语言模型，从而可有效减少模型维护成本。使用这种方法，观察到具有适配器的通用 LM 在词错误率方面优于专用音乐领域 LM。

Aug, 2020