词嵌入的简单有效的降维方法
使用预训练语言模型(PLMs)生成的句子嵌入引起了自然语言处理界的广泛关注,因为它们在多种下游应用中以优越的性能表示文本。然而,当在内存或计算受限设备中表示大量句子时,由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案,我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明,如主成分分析(PCA)等简单方法可以将句子嵌入的维度降低近 50%,而不会在多个下游任务中造成显著性能损失。令人惊讶的是,在某些任务中,进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。
Mar, 2024
本文研究了通过降低信息库的维度和数值精度来减少检索问题答案时所需的计算资源,发现 PCA 能够简单地解决问题且需要的数据量较少,结合 1 位 / 维使能够在保持较好检索性能的前提下实现大幅压缩。
Apr, 2022
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
本文提出了一种利用预训练单词嵌入进行文本聚类的新方法,同时整合文本信息进行加权聚类并重新排名前几个单词,旨在挖掘出文档集合中的主题,并对其性能进行基准测试并分析其在降维中的性能。实验表明,所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。
Apr, 2020
本文系统研究了在人类级别 NLP 任务如何通过降维方法及向量嵌入维度与样本大小来提高预测性能,其中 RoBERTa 模型在使用 PCA 降维时处理长文本用户表现更佳,大多数任务仅需 1/12 的向量嵌入维度即可达到最佳表现。
May, 2021
通过对单词共现矩阵的 Hellinger PCA,大大简化了单词嵌入的计算,从而成功地生成了适合于命名实体识别和影评任务的新单词嵌入,同时展示了深度学习如何提供一种简单方法来适应特定任务。
Dec, 2013