词嵌入的简单有效的降维方法

NIPSAug, 2017

Simple and Effective Dimensionality Reduction for Word Embeddings

Vikas Raunak

TL;DR本文提出一种基于主成分分析和后处理算法相结合的新颖算法，用于将预先训练好的词向量降维，实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。

Abstract

word embeddings have become the basic building blocks for several natural language processing and information retrieval tasks. pre-trained word embeddings are used in several downstream applications as well as fo

word embeddings pre-trained dimensionality reduction post-processing algorithm similarity benchmarks

发现论文，激发创造

评估预训练句子嵌入的无监督降维方法

使用预训练语言模型（PLMs）生成的句子嵌入引起了自然语言处理界的广泛关注，因为它们在多种下游应用中以优越的性能表示文本。然而，当在内存或计算受限设备中表示大量句子时，由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案，我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明，如主成分分析（PCA）等简单方法可以将句子嵌入的维度降低近 50%，而不会在多个下游任务中造成显著性能损失。令人惊讶的是，在某些任务中，进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。

Mar, 2024

知识库索引压缩通过降维和精度降低

本文研究了通过降低信息库的维度和数值精度来减少检索问题答案时所需的计算资源，发现 PCA 能够简单地解决问题且需要的数据量较少，结合 1 位 / 维使能够在保持较好检索性能的前提下实现大幅压缩。

Apr, 2022

自编码提升预训练词嵌入

本文研究了预训练单词嵌入的几何结构特征，实验证明保留 top 主成分以提高预训练单词嵌入的准确性是有用的，无需额外的语言资源或标注数据。

Oct, 2020

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

关于句子嵌入的维度

通过维度分析，我们提出了一种双步训练方法，优化编码器和池化器以减轻低维场景中的整体性能损失，从而显著提高低维句子嵌入的性能。

Oct, 2023

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

厌倦主题模型？预训练词嵌入聚类同样适用于快速且良好的主题！

本文提出了一种利用预训练单词嵌入进行文本聚类的新方法，同时整合文本信息进行加权聚类并重新排名前几个单词，旨在挖掘出文档集合中的主题，并对其性能进行基准测试并分析其在降维中的性能。实验表明，所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。

Apr, 2020

学习增强的降维 K 均值聚类

使用主成分分析（PCA）降低数据集的维度，提高 k-means 算法在特定质心下的预测性能和降低成本。

Jan, 2024

使用预训练转换器进行人类级自然语言处理的实证评估：样本大小和维度的作用

本文系统研究了在人类级别 NLP 任务如何通过降维方法及向量嵌入维度与样本大小来提高预测性能，其中 RoBERTa 模型在使用 PCA 降维时处理长文本用户表现更佳，大多数任务仅需 1/12 的向量嵌入维度即可达到最佳表现。

May, 2021

Hellinger PCA 嵌入词向量

通过对单词共现矩阵的 Hellinger PCA，大大简化了单词嵌入的计算，从而成功地生成了适合于命名实体识别和影评任务的新单词嵌入，同时展示了深度学习如何提供一种简单方法来适应特定任务。

Dec, 2013