同性、聚类与分类器

Feb, 2024

Isotropy, Clusters, and Classifiers

Timothee Mickus, Stig-Arne Grönroos, Joseph Attieh

TL;DR本文讨论嵌入空间是否具有各个维度的均匀性，即是否各向同性，并通过实验证明各向同性会使嵌入空间与聚类不兼容，从而对线性分类目标产生负面影响，同时阐明了之前的研究结果。

Abstract

Whether embedding spaces use all their dimensions equally, i.e., whether they are isotropic, has been a recent subject of discussion. Evidence has been accrued both for and against enforcing isotropy in

embedding spaces isotropy clusters linear classification objectives literature

发现论文，激发创造

IsoScore: 量化嵌入空间利用均匀性

通过提出量化点云普遍利用环境向量空间程度的新工具 IsoScore，该文挑战了诸多基于 NLP 文献存在问题的指标的结论。

Aug, 2021

一种基于簇的方法用于改善上下文嵌入空间的等向性

本文提出了一种基于局部聚类的方法来应对上下文嵌入空间中的退化问题，实验证明该方法可以在多个任务上缓解该问题。

Jun, 2021

多语言 BERT 嵌入空间中的各向同性分析

研究探讨如何解决多语种 BERT 模型在语言表示中的异构性以及异常维度，以提高其表现力和性能，并发现各种语言的嵌入空间在结构上部分类似。

Oct, 2021

在材料领域中量化高维非监督聚类任务中等向性的度量

本研究提出了一种基于现有推导的新型方法，通过对反应物的不同表征和聚类算法进行全面分析，可以量化簇的各向同性度量以及各向同性的平均度量，并在 Inorganic Crystal Structure Database 和 MNIST 数据集上进行了应用。

May, 2023

微调对嵌入空间几何结构的影响：以等向性为例的案例研究

分析 fine-tuning 预训练语言模型后嵌入空间异构性的变化，证明 fine-tuning 并不能使嵌入空间的等向性增强，还发现 fine-tuning 会导致预训练的 CWRs 中的局部结构发生巨大变化，使得原有的等向性增强方法失效。

Sep, 2021

稳定各向异性正则化

本文提出一种新的正则化方法 I-STAR，该方法可以在训练过程中增加或减少嵌入空间中的等向性水平，并发现在大多数任务和模型中减少等向性可以改善性能。

May, 2023

自监督语音表示中说话人和语音信息的正交性和等向性

自我监督语音表示对下游语音技术有很大的益处，但其有用性的属性仍然了解甚少。本文引入了一种新的度量方法，即累积残差方差（CRV），用于评估表示空间的两个候选属性：讲话者质心和音素质心所跨越子空间的正交程度，以及空间的各个维度有效利用程度。我们使用线性分类器对六个不同的自我监督模型和两个未经训练的基准模型的语音表示进行了评估，探讨正交性和各向同性是否与线性测试精度相关。研究发现这两个度量与语音测试精度呈正相关，尽管对于各向同性的结果更为微妙。

Jun, 2024

探索多语言语言模型中的异性与异常值对于跨语义句子相似度的影响

通过对多个预训练的多语种语言模型进行研究，探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好，且表示更各向同性。研究人员通过不同的操作（例如消除异常维度、聚类基于同性等操作）来改进多语种表示。

Jun, 2023

双曲图形对比学习的对齐和外壳各向同性

基于超辐角的对比学习在学习高质量图嵌入中表现良好，通过设计对齐度量和均匀性度量，解决了生态树属性和泊松球边界处的各向同态问题，实验证明了该方法在监督学习和自我监督学习中的有效性。

Oct, 2023

学习去除：面向各向同性的预训练 BERT 嵌入

研究表明预训练语言模型，如 BERT，在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征，提出一种基于可学习权重的简单而有效的方法，可以更好地处理向量的同一性问题，并在三项标准任务中获得较好的性能表现。

Apr, 2021