降低集中度改善句子 BERT 语义空间

Nov, 2023

降低集中度改善句子 BERT 语义空间

Hubness Reduction Improves Sentence-BERT Semantic Spaces

Beatrix M. G. Nielsen, Lars Kai Hansen

TL;DR通过使用 Sentence-BERT 创建的嵌入表征语义空间的结构，我们发现其中普遍存在的高维度问题，即 hubness 会导致不对称的邻居关系，而减小 hubness 可以提供更好的文本语义表征。

Abstract

semantic representations of text, i.e. representations of natural language which capture meaning by geometry, are essential for areas such

semantic representations geometry embeddings hubness text

发现论文，激发创造

通过缓解中心问题来改善零样本学习

该研究提出了一种简单的方法来解决 zero-shot 任务中邻居向量被强权向心性卡住的问题，即通过考虑多个向量中潜在邻居的相似度分布来校正错误结果。结果表明，这种校正方法在跨语言、图像标记和图像检索等领域的 zero-shot 任务中均获得了稳定的改善。

Dec, 2014

中心点和超球体：使用超球嵌入减少中心现象和提高传导式小样本学习性能

通过在超球面上平均分配表示，以优化均匀性和本地相似性存储之间的权衡，从而减少 hubness 问题，改善距离分类性能，提高少样本学习的准确性。

Mar, 2023

HAL: 通过缓解视觉语义中心改进文本图像匹配

本文针对视觉与语义嵌入中的 hub 问题，探讨了两种优化目标以及提出的 hubness-aware loss function 的优点，并在模型架构和数据集方面进行了实验，结果表明该方法在 text-image matching 任务中具有优良的鲁棒性并且能够带来一致性的改进。

Nov, 2019

岭回归、Hubness 和零 - shot 学习

本文探讨了零样本学习中 hubness 的影响，当使用岭回归在例子空间和标签空间之间寻找映射关系时。我们提出了将标签映射到例子空间的方法，以抑制后续最近邻搜索步骤中的 hub 出现。在一个简单的数据模型下，我们证明了所提出的方法确实减少了 hubness。我们在双语词典提取和图像标注任务上经验证实际上降低了 hubness，并且精度相应地提高了。

Jul, 2015

关于预训练语言模型中句子嵌入的研究

本篇论文提出通过使 BERT 句子嵌入分布变换成平滑和各向同性的高斯分布，从而提高 BERT 在各种语义文本相似度任务中的表现。实验证明，我们提出的 BERT-flow 方法在各种任务中显著优于现有状态下的句子嵌入方法。

Nov, 2020

词汇语义增强的神经词向量

通过深度度量学习进行后处理可以提高神经语言模型中语义相似度推断的效果，并将层次拟合用于建模 IS-A 层次中的语义相似性细微差别。

Oct, 2022

关于句子嵌入的维度

通过维度分析，我们提出了一种双步训练方法，优化编码器和池化器以减轻低维场景中的整体性能损失，从而显著提高低维句子嵌入的性能。

Oct, 2023

学习去除：面向各向同性的预训练 BERT 嵌入

研究表明预训练语言模型，如 BERT，在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征，提出一种基于可学习权重的简单而有效的方法，可以更好地处理向量的同一性问题，并在三项标准任务中获得较好的性能表现。

Apr, 2021

词嵌入的语义结构和可解释性

该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构，并引入了一个新的数据集（SEMCAT），其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法，这是一种实用的替代方法，不需要人为干预。

Nov, 2017

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018