使用输出嵌入来改进语言模型

Aug, 2016

Using the Output Embedding to Improve Language Models

Ofir Press, Lior Wolf

TL;DR本文研究神经网络语言模型的最高权重矩阵，表明这个矩阵构成有效的单词嵌入，建议绑定输入嵌入和输出嵌入的训练方法并提供新的输出嵌入规则，这些方法能够显著降低困惑度并在不影响性能的情况下减少神经翻译模型的尺寸。

Abstract

We study the topmost weight matrix of neural network language models. We show that this matrix constitutes a valid word embedding. When training<

发现论文，激发创造

利用神经机器翻译嵌入词汇相似度

该研究探讨神经机器翻译模型所学到的嵌入，在需要同时考虑概念相似性和词汇-句法角色知识的任务中，它们的性能优于单语言模型所学到的嵌入。研究结果还表明，词汇扩展算法对嵌入质量的影响很小。

Dec, 2014

词嵌入蒸馏：一种编码方法

本文提出一种编码方法，用于从高维词嵌入中提取特定任务的知识，旨在解决在各种资源受限系统中高性能的轻量级神经网络的需求问题。实验结果表明，从笨重的嵌入中提取知识优于使用小型嵌入直接训练神经网络，能保证高准确性的同时大幅减少模型复杂度。

Jun, 2015

如何生成良好的词向量？

本文分析词嵌入训练的三个关键组成部分，并将现有的基于神经网络的词嵌入算法系统化，并在相同语料库下进行比较评估。作者提供了几条简单指南以训练词嵌入。作者发现，选择合适领域的语料库比语料库大小更为重要。在此基础上使用更大的语料库能得到更好的结果。本文还展示了更快的模型在大多数情况下提供足够的性能，而更复杂的模型可以在培训语料库足够大的情况下使用，并且，对于迭代停止指标，应该依赖于所需任务的开发集，而不是训练嵌入的验证损失。

Jul, 2015

通过稀疏词表示压缩神经语言模型

本文提出使用稀疏单词表示来压缩神经语言模型的参数量，以减少计算资源需求并提高性能表现。

Oct, 2016

将词向量与词分类器联系起来：面向语言建模的损失框架

通过将输入嵌入和输出投影矩阵进行绑定，利用更多信息和减小可训练变量数量，提出了一种提高自然语言模型学习效率的新型理论框架，并在Penn Tree Bank数据集上实现了最先进的性能。

Nov, 2016

重新思考预训练语言模型中的嵌入耦合

重新评估了先进的预训练语言模型中共享输入和输出嵌入权重的标准做法，表明解耦的嵌入提供了更好的建模灵活性，允许我们在多语言模型的输入嵌入的参数分配方面显着提高参数分配效率。通过在Transformer层中重新分配输入嵌入参数，我们在保持微调期间相同的参数数量的情况下，实现了标准自然语言理解任务的极大性能改进。Allocate额外的容量来提供模型的输出嵌入即使在预训练后被丢弃，也能在微调阶段带来好处。我们的分析表明，更大的输出嵌入可以防止模型的最后几层过度专注于预训练任务，并鼓励Transformer表示更加普遍和更易于传递到其他任务和语言。利用这些发现，我们能够训练出在XTREME基准上表现出色的模型，而不增加微调阶段的参数数量。

Oct, 2020

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

基于子空间嵌入的轻量级神经语言模型适应

我们提出了一种新的紧凑嵌入结构，通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程，来减少预训练语言模型的内存占用，牺牲高达4%的绝对准确率。我们的实验结果表明，子空间嵌入在XNLI和GLUE基准套件上与原始嵌入相比，达到了超过99.8%的压缩率。

Aug, 2023

连续输出神经机器翻译的随机目标嵌入的非凡有效性

连续输出神经机器翻译（CoNMT）通过嵌入预测替代了离散的下一个词预测问题；我们挑战了相关单词间语义结构（即相关单词的接近度）对此的重要性的假设，并展示了完全随机的输出嵌入能够优于经过艰苦预训练的嵌入，尤其在更大的数据集上，对于罕见词而言这种令人惊讶的效果最为显著，这是由于他们嵌入的几何形状造成的；我们通过设计一种混合策略来进一步探究此发现，该策略将随机和预训练嵌入用于不同的标记。

Oct, 2023

理解输出嵌入中的令牌概率编码

通过研究语言模型输出嵌入中的输出标记概率信息，我们提供了一种近似的常见对数线性编码，在输出空间大且输出logit集中时，该编码准确且稀疏。基于这些发现，我们修改了输出嵌入中的编码以准确修改输出概率分布。此外，我们发现输出概率编码中的稀疏性表明很多维度在因果语言建模中并没有贡献。因此，我们尝试删除与输出无关的维度，并发现超过30%的维度可以在输出分布和序列生成上没有显著移动和退化的情况下删除。此外，在训练动态方面，我们使用这种编码作为探针，并发现输出嵌入在早期步骤中捕获令牌频率信息，甚至在明显收敛开始之前。

Jun, 2024