同性、聚类与分类器
本研究提出了一种基于现有推导的新型方法,通过对反应物的不同表征和聚类算法进行全面分析,可以量化簇的各向同性度量以及各向同性的平均度量,并在 Inorganic Crystal Structure Database 和 MNIST 数据集上进行了应用。
May, 2023
分析 fine-tuning 预训练语言模型后嵌入空间异构性的变化,证明 fine-tuning 并不能使嵌入空间的等向性增强,还发现 fine-tuning 会导致预训练的 CWRs 中的局部结构发生巨大变化,使得原有的等向性增强方法失效。
Sep, 2021
自我监督语音表示对下游语音技术有很大的益处,但其有用性的属性仍然了解甚少。本文引入了一种新的度量方法,即累积残差方差(CRV),用于评估表示空间的两个候选属性:讲话者质心和音素质心所跨越子空间的正交程度,以及空间的各个维度有效利用程度。我们使用线性分类器对六个不同的自我监督模型和两个未经训练的基准模型的语音表示进行了评估,探讨正交性和各向同性是否与线性测试精度相关。研究发现这两个度量与语音测试精度呈正相关,尽管对于各向同性的结果更为微妙。
Jun, 2024
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023
基于超辐角的对比学习在学习高质量图嵌入中表现良好,通过设计对齐度量和均匀性度量,解决了生态树属性和泊松球边界处的各向同态问题,实验证明了该方法在监督学习和自我监督学习中的有效性。
Oct, 2023
研究表明预训练语言模型,如 BERT,在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征,提出一种基于可学习权重的简单而有效的方法,可以更好地处理向量的同一性问题,并在三项标准任务中获得较好的性能表现。
Apr, 2021