评估预训练句子嵌入的无监督降维方法

Mar, 2024

评估预训练句子嵌入的无监督降维方法

Evaluating Unsupervised Dimensionality Reduction Methods for Pretrained Sentence Embeddings

Gaifan Zhang, Yi Zhou, Danushka Bollegala

TL;DR使用预训练语言模型（PLMs）生成的句子嵌入引起了自然语言处理界的广泛关注，因为它们在多种下游应用中以优越的性能表示文本。然而，当在内存或计算受限设备中表示大量句子时，由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案，我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明，如主成分分析（PCA）等简单方法可以将句子嵌入的维度降低近 50%，而不会在多个下游任务中造成显著性能损失。令人惊讶的是，在某些任务中，进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。

Abstract

sentence embeddings produced by pretrained language models (PLMs) have received wide attention from the NLP community due to their superior performance when representing texts in numerous downstream applications.

pretrained language models sentence embeddings dimensionality reduction principal component analysis (pca)downstream tasks

发现论文，激发创造

词嵌入的简单有效的降维方法

本文提出一种基于主成分分析和后处理算法相结合的新颖算法，用于将预先训练好的词向量降维，实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。

Aug, 2017

关于句子嵌入的维度

通过维度分析，我们提出了一种双步训练方法，优化编码器和池化器以减轻低维场景中的整体性能损失，从而显著提高低维句子嵌入的性能。

Oct, 2023

通过流形逼近和投影实现的无监督句子嵌入

该研究提出了一种名为 EMAP 的新技术，通过将句子投射到一个固定维度的流形上，以保留原始空间中的局部邻域来无监督地生成句子嵌入，可以用于文本分类，实验证明该方法性能优于其他最先进方法。

Feb, 2021

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

使用预训练转换器进行人类级自然语言处理的实证评估：样本大小和维度的作用

本文系统研究了在人类级别 NLP 任务如何通过降维方法及向量嵌入维度与样本大小来提高预测性能，其中 RoBERTa 模型在使用 PCA 降维时处理长文本用户表现更佳，大多数任务仅需 1/12 的向量嵌入维度即可达到最佳表现。

May, 2021

多语种 Transformer 中的降维技术探索

这篇论文旨在探讨多维降维技术对多语言 Siamese Transformer 模型在语义文本相似性任务上的性能影响，针对 Semantic Textual Similarity Benchmark 进行了测试，并通过可视化结果得出了在高维度嵌入计算中使用降维技术的潜力及其对语义意识任务性能的影响。

Apr, 2022

自编码提升预训练词嵌入

本文研究了预训练单词嵌入的几何结构特征，实验证明保留 top 主成分以提高预训练单词嵌入的准确性是有用的，无需额外的语言资源或标注数据。

Oct, 2020

使用预训练语言模型生成数据集

本文介绍了一种利用预训练语言模型生成标注文本数据集的方法，从而实现高质量的无监督学习得到的句子嵌入。实验结果表明，这种方法在多个语义文本相似性测试数据上实现了比较好的性能表现。

Apr, 2021

基于随机投影的降维技术综述

本文总结了基于随机投影的不同方法的使用情况，旨在帮助实践者为其特定应用选择合适的技术，并列举了各种方法的优缺点，并为研究人员提供进一步的参考，以开发新的基于随机投影的方法。

Jun, 2017

增强生成语言模型中的句子嵌入的简单技术

本研究挑战了从预训练语言模型（PLMs）中获得句子嵌入所必须的显式单字限制的普遍观点，并通过实验证明了这种方法对于判别模型或生成型 PLMs 的精调并非必需。在此基础上，我们提出了两种创新的提示工程技术，可以进一步增强 PLMs 原始嵌入的表达能力：假装的思路链和知识增强，并详细研究了导致其成功的潜在因素。

Apr, 2024