本文提出一种新的正则化方法 I-STAR,该方法可以在训练过程中增加或减少嵌入空间中的等向性水平,并发现在大多数任务和模型中减少等向性可以改善性能。
May, 2023
本文讨论嵌入空间是否具有各个维度的均匀性,即是否各向同性,并通过实验证明各向同性会使嵌入空间与聚类不兼容,从而对线性分类目标产生负面影响,同时阐明了之前的研究结果。
Feb, 2024
本文提出一种通过在 Skip-gram 损失函数中加入全局同构度量来提高单语词向量空间同构性的方法以改进词向量之间的跨语言映射,从而实现对通用数据条件下的双语词典诱导、领域不匹配和训练算法不匹配的提高。
Oct, 2022
本文提出了一种基于局部聚类的方法来应对上下文嵌入空间中的退化问题,实验证明该方法可以在多个任务上缓解该问题。
Jun, 2021
研究表明预训练语言模型,如 BERT,在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征,提出一种基于可学习权重的简单而有效的方法,可以更好地处理向量的同一性问题,并在三项标准任务中获得较好的性能表现。
Apr, 2021
本研究提出了一种基于现有推导的新型方法,通过对反应物的不同表征和聚类算法进行全面分析,可以量化簇的各向同性度量以及各向同性的平均度量,并在 Inorganic Crystal Structure Database 和 MNIST 数据集上进行了应用。
本文提出并验证八种数据分布度量方法,相对于现有方法,其中大部分具有改进效果,建议使用一种基于主要成分的度量方法和一种基于熵的度量方法来评估模型的数据分布情况。
Dec, 2022
本研究使用 Normalizing Flow 和 whitening 等无监督的后处理方法,提出一种基于令牌和序列的方法来处理密集检索模型的表示,优化 BERT 表示的各向同性分布,实验结果表明,这种方法可以显著提高文档排序的性能,并在处理不同的测试数据集时具有潜在的鲁棒性。
Sep, 2022
自我监督语音表示对下游语音技术有很大的益处,但其有用性的属性仍然了解甚少。本文引入了一种新的度量方法,即累积残差方差(CRV),用于评估表示空间的两个候选属性:讲话者质心和音素质心所跨越子空间的正交程度,以及空间的各个维度有效利用程度。我们使用线性分类器对六个不同的自我监督模型和两个未经训练的基准模型的语音表示进行了评估,探讨正交性和各向同性是否与线性测试精度相关。研究发现这两个度量与语音测试精度呈正相关,尽管对于各向同性的结果更为微妙。
Jun, 2024
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023