该研究提出了一种简单的方法来解决 zero-shot 任务中邻居向量被强权向心性卡住的问题,即通过考虑多个向量中潜在邻居的相似度分布来校正错误结果。结果表明,这种校正方法在跨语言、图像标记和图像检索等领域的 zero-shot 任务中均获得了稳定的改善。
Dec, 2014
通过在超球面上平均分配表示,以优化均匀性和本地相似性存储之间的权衡,从而减少 hubness 问题,改善距离分类性能,提高少样本学习的准确性。
Mar, 2023
本文针对视觉与语义嵌入中的 hub 问题,探讨了两种优化目标以及提出的 hubness-aware loss function 的优点,并在模型架构和数据集方面进行了实验,结果表明该方法在 text-image matching 任务中具有优良的鲁棒性并且能够带来一致性的改进。
Nov, 2019
本文探讨了零样本学习中 hubness 的影响,当使用岭回归在例子空间和标签空间之间寻找映射关系时。我们提出了将标签映射到例子空间的方法,以抑制后续最近邻搜索步骤中的 hub 出现。在一个简单的数据模型下,我们证明了所提出的方法确实减少了 hubness。我们在双语词典提取和图像标注任务上经验证实际上降低了 hubness,并且精度相应地提高了。
Jul, 2015
本篇论文提出通过使 BERT 句子嵌入分布变换成平滑和各向同性的高斯分布,从而提高 BERT 在各种语义文本相似度任务中的表现。实验证明,我们提出的 BERT-flow 方法在各种任务中显著优于现有状态下的句子嵌入方法。
Nov, 2020
通过深度度量学习进行后处理可以提高神经语言模型中语义相似度推断的效果,并将层次拟合用于建模 IS-A 层次中的语义相似性细微差别。
Oct, 2022
通过维度分析,我们提出了一种双步训练方法,优化编码器和池化器以减轻低维场景中的整体性能损失,从而显著提高低维句子嵌入的性能。
Oct, 2023
研究表明预训练语言模型,如 BERT,在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征,提出一种基于可学习权重的简单而有效的方法,可以更好地处理向量的同一性问题,并在三项标准任务中获得较好的性能表现。
Apr, 2021
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018