余弦归一化:在神经网络中使用余弦相似度代替点积
用于量化高维对象之间语义相似度的余弦相似度在实践中比未归一化的嵌入向量点积表现有时更好、有时更差。通过研究基于正则化线性模型的嵌入,我们得出了余弦相似度可以产生任意且无意义的相似度的结论。因此,我们提醒不要盲目使用余弦相似度,并提出替代方法。
Mar, 2024
我们展示了在两种未被充分探索的情况下,两点之间的余弦相似度的梯度趋近于零:(1)如果一个点的幅度很大,或者(2)如果这两个点位于潜在空间的两端。令人意想不到的是,我们证明,优化点之间的余弦相似度会导致它们的幅度增加。因此,(1)在实践中是不可避免的。然后,我们观察到这些推导非常通用,适用于深度学习架构和许多标准的自监督学习(SSL)损失函数。这引导我们提出切割初始化(cut-initialization):一种对网络初始化进行简单更改的方法,有助于所有研究的自监督学习方法更快地收敛。
Jun, 2024
该研究基于对归一化进行数学分析,提出了两种新策略,分别是优化余弦相似度的 Softmax 损失函数的修改和为每个类引入代理向量的度量学习的重构。这两种策略分别提高了 0.2%到 0.4%的性能。
Apr, 2017
本研究提出一种新的解释,将余弦相似度解释为在独立成分分析转换的嵌入空间中的语义相似度之和,通过实验证明了归一化的 ICA 转换后的嵌入具有稀疏性,可以增强可解释性,并利用理想嵌入进行检索实验验证了该解释的有效性。
Jun, 2024
介绍了一种基于卷积结构的归一化方法 (Convolutional Normalization),它可以方便地作为模块嵌入到任何卷积神经网络 (ConvNets) 中,通过提高权重的正交性和每层的通道等距性,减小权重矩阵的层范数,提高网络的 Lipschitzness 并且提高 GAN 性能和普适性。
Mar, 2021
本研究提出了一种利用二阶信息和功率归一化的相似性学习网络,用于解决一种和少量样本学习问题,并在 Omniglot,miniImagenet 和 Open MIC 数据集上获得了最优结果。
Nov, 2018
本文研究了使用余弦相似度损失函数进行小数据集分类的问题,发现与分类交叉熵损失函数相比,余弦损失函数在只有极少标本的数据集上具有更高的准确性,在使用类别树的先前知识时可以进一步提高分类性能。
Jan, 2019
通过随机投影方法生成的嵌入向量在计算效率上得到了广泛应用,本文进一步研究了随机投影对点积和余弦相似度的保留效果并提供了新的理论结果,找出了病态案例并用数值实验进行了测试,发现对于低度或高度节点,此方法在点积上得到的嵌入向量相对不可靠,而与随机投影引入的统计噪声相比,余弦相似度得到了更精确的近似。
Apr, 2024
通过添加一个新的损失项,将神经网络激活函数的方差稳定下来,使其围绕几个不同的模式分布,并将这种正则化项与 batchnorm 方法联系起来,提高了卷积神经网络和全连接网络的准确性。
Nov, 2018