重新思考预训练语言模型中的嵌入耦合

Oct, 2020

重新思考预训练语言模型中的嵌入耦合

Rethinking embedding coupling in pre-trained language models

Hyung Won Chung, Thibault Févry, Henry Tsai, Melvin Johnson, Sebastian Ruder

TL;DR重新评估了先进的预训练语言模型中共享输入和输出嵌入权重的标准做法，表明解耦的嵌入提供了更好的建模灵活性，允许我们在多语言模型的输入嵌入的参数分配方面显着提高参数分配效率。通过在 Transformer 层中重新分配输入嵌入参数，我们在保持微调期间相同的参数数量的情况下，实现了标准自然语言理解任务的极大性能改进。Allocate 额外的容量来提供模型的输出嵌入即使在预训练后被丢弃，也能在微调阶段带来好处。我们的分析表明，更大的输出嵌入可以防止模型的最后几层过度专注于预训练任务，并鼓励 Transformer 表示更加普遍和更易于传递到其他任务和语言。利用这些发现，我们能够训练出在 XTREME 基准上表现出色的模型，而不增加微调阶段的参数数量。

Abstract

We re-evaluate the standard practice of sharing weights between input and output embeddings in state-of-the-art pre-trained language models. We show that decoupled embeddings provide increased modeling flexibilit

pre-trained language models decoupled embeddings parameter allocation transformer representations fine-tuning

发现论文，激发创造

使用输出嵌入来改进语言模型

本文研究神经网络语言模型的最高权重矩阵，表明这个矩阵构成有效的单词嵌入，建议绑定输入嵌入和输出嵌入的训练方法并提供新的输出嵌入规则，这些方法能够显著降低困惑度并在不影响性能的情况下减少神经翻译模型的尺寸。

Aug, 2016

用张量嵌入层实现模型高效压缩

本文介绍了一种使用 Tensor Train（TT）分解来压缩模型中的嵌入层的新方法，并在自然语言处理的广泛基准测试中评估了其性能与压缩比之间的平衡。

Jan, 2019

适用于循环神经网络语言模型的瘦身嵌入层

本文介绍了一种通过在 RNN 中的输入和输出嵌入层共享参数来压缩模型参数的方法，实验证明该方法可大幅减小模型参数的大小，但仍能在自然语言处理中保持模型的准确性和性能表现。

Nov, 2017

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Mar, 2022

使用嵌入技术对抗冗余和模型衰减

本文介绍了 Twitter 在处理海量信息时的一种解决方案，通过采用嵌入模型，实现了同时考虑模型效率与数据分布的算法更新，从而降低因语言变化带来的协变量漂移、减少冗余，并极大地提高了团队建模的效率。

Sep, 2018

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

自适应语言建模的基于实例的组合输出

本研究提出了基于结构化词典的完全组成的输出嵌入层，用于改善语言模型在新域和任务中的适应能力问题，为我们所知，这是第一个单词级别的语言模型，其大小不取决于训练词汇表，并通过低频词的样本效率来提高精度。

Sep, 2020

嵌入空间中的 Transformer 分析

该研究在理论上分析了训练好的 Transformer 模型参数的映射关系与对应的词向量，在嵌入空间中进行模型参数解释，从而实现在模型特定细节抽象化的前提下进行模型参数解释，进一步提出了参数对齐和分类器构建两种应用。

Sep, 2022