自编码提升预训练词嵌入

COLINGOct, 2020

Autoencoding Improves Pre-trained Word Embeddings

Masahiro Kaneko, Danushka Bollegala

TL;DR本文研究了预训练单词嵌入的几何结构特征，实验证明保留 top 主成分以提高预训练单词嵌入的准确性是有用的，无需额外的语言资源或标注数据。

Abstract

Prior work investigating the geometry of pre-trained word embeddings have shown that word embeddings to be distributed in a narrow cone and by centering and projecting using →

pre-trained word embeddings geometry principal component vectors linear autoencoder linguistic resources

发现论文，激发创造

词嵌入的简单有效的降维方法

本文提出一种基于主成分分析和后处理算法相结合的新颖算法，用于将预先训练好的词向量降维，实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。

Aug, 2017

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

一种使用预先训练的自编码器进行跨语言语言转换的简单几何方法

本文研究了在多语言训练中的强大的语句编码器，探讨了是否可以通过几何映射来间接地操纵语言属性，并用预训练的多语言自编码器验证了该方法的有效性。

Apr, 2021

学习去除：面向各向同性的预训练 BERT 嵌入

研究表明预训练语言模型，如 BERT，在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征，提出一种基于可学习权重的简单而有效的方法，可以更好地处理向量的同一性问题，并在三项标准任务中获得较好的性能表现。

Apr, 2021

评估预训练句子嵌入的无监督降维方法

使用预训练语言模型（PLMs）生成的句子嵌入引起了自然语言处理界的广泛关注，因为它们在多种下游应用中以优越的性能表示文本。然而，当在内存或计算受限设备中表示大量句子时，由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案，我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明，如主成分分析（PCA）等简单方法可以将句子嵌入的维度降低近 50%，而不会在多个下游任务中造成显著性能损失。令人惊讶的是，在某些任务中，进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。

Mar, 2024

通过子词参数重建词向量嵌入

该研究提出了在子词素水平上进行操作以从预先训练的词嵌入中受益的方法，并报告了在词相似性、词类别标注等任务上的有趣结果。

Jul, 2017

通过流形逼近和投影实现的无监督句子嵌入

该研究提出了一种名为 EMAP 的新技术，通过将句子投射到一个固定维度的流形上，以保留原始空间中的局部邻域来无监督地生成句子嵌入，可以用于文本分类，实验证明该方法性能优于其他最先进方法。

Feb, 2021

利用线性自编码器从主子空间提取主成分

本文介绍了使用一种单隐层全连接自编码器进行特征提取可以有效地恢复主成分分析 (PCA) 的加载向量，且训练权重与 PCA 加载向量存在差异，从而优化特征提取的性能。

Apr, 2018

自然语言处理任务中的迁移学习监督上下文嵌入

本文关注于从多个预训练的监督模型中提取表示，以丰富单词嵌入具有任务和领域特定的知识，实验表明这样的监督嵌入对于低资源情况有所帮助，但对于任务和领域的性质不同的扩展程度不同，而我们公开了我们的代码。

Jun, 2019

后处理对上下文化词表示的影响

本篇论文探讨了对预训练语言模型中的上下文嵌入层进行后处理的实用性，进一步应用标准化个体神经元激活层、单位长度标准化等方法，发现这些方法能够揭示嵌入层中的重要信息，包括词汇任务和序列分类任务。文章提出了 z-score 标准化作为使用这些方法的一个重要步骤。

Apr, 2021