余弦归一化：在神经网络中使用余弦相似度代替点积

Feb, 2017

余弦归一化：在神经网络中使用余弦相似度代替点积

Cosine Normalization: Using Cosine Similarity Instead of Dot Product in Neural Networks

Chunjie Luo, Jianfeng Zhan, Lei Wang, Qiang Yang

TL;DR该研究探讨使用余弦相似度或中心余弦相似度（皮尔逊相关系数）来替代神经网络中点积计算，从而达到较好的正则化效果，实验结果表明，余弦正则化优于其他正则化技术。

Abstract

Traditionally, multi-layer neural networks use dot product between the output vector of previous layer and the incoming weight vector as the input to activation function. The result of dot product is unbounded, thus increases the risk of large →

neural networks cosine normalization variance generalization normalization techniques

发现论文，激发创造

嵌入向量的余弦相似度真的只是相似性吗？

用于量化高维对象之间语义相似度的余弦相似度在实践中比未归一化的嵌入向量点积表现有时更好、有时更差。通过研究基于正则化线性模型的嵌入，我们得出了余弦相似度可以产生任意且无意义的相似度的结论。因此，我们提醒不要盲目使用余弦相似度，并提出替代方法。

Mar, 2024

余弦相似度损失的隐蔽陷阱

我们展示了在两种未被充分探索的情况下，两点之间的余弦相似度的梯度趋近于零：（1）如果一个点的幅度很大，或者（2）如果这两个点位于潜在空间的两端。令人意想不到的是，我们证明，优化点之间的余弦相似度会导致它们的幅度增加。因此，（1）在实践中是不可避免的。然后，我们观察到这些推导非常通用，适用于深度学习架构和许多标准的自监督学习（SSL）损失函数。这引导我们提出切割初始化（cut-initialization）：一种对网络初始化进行简单更改的方法，有助于所有研究的自监督学习方法更快地收敛。

Jun, 2024

NormFace：L2 超球面嵌入在面部验证中的应用

该研究基于对归一化进行数学分析，提出了两种新策略，分别是优化余弦相似度的 Softmax 损失函数的修改和为每个类引入代理向量的度量学习的重构。这两种策略分别提高了 0.2％到 0.4％的性能。

Apr, 2017

通过标准化的 ICA 转换嵌入重新审视余弦相似度

本研究提出一种新的解释，将余弦相似度解释为在独立成分分析转换的嵌入空间中的语义相似度之和，通过实验证明了归一化的 ICA 转换后的嵌入具有稀疏性，可以增强可解释性，并利用理想嵌入进行检索实验验证了该解释的有效性。

Jun, 2024

卷积归一化：提高深度卷积网络的鲁棒性和训练效果

介绍了一种基于卷积结构的归一化方法 (Convolutional Normalization)，它可以方便地作为模块嵌入到任何卷积神经网络 (ConvNets) 中，通过提高权重的正交性和每层的通道等距性，减小权重矩阵的层范数，提高网络的 Lipschitzness 并且提高 GAN 性能和普适性。

Mar, 2021

二阶相似度规范化弱监督学习的网络

本研究提出了一种利用二阶信息和功率归一化的相似性学习网络，用于解决一种和少量样本学习问题，并在 Omniglot，miniImagenet 和 Open MIC 数据集上获得了最优结果。

Nov, 2018

层归一化

本文提出一种基于层归一化的深度神经网络训练新方法，能够有效稳定循环神经网络中的隐藏状态动态，其训练时间较之前的技术有大幅度降低。

Jul, 2016

使用余弦损失函数对小数据集进行无预训练深度学习

本文研究了使用余弦相似度损失函数进行小数据集分类的问题，发现与分类交叉熵损失函数相比，余弦损失函数在只有极少标本的数据集上具有更高的准确性，在使用类别树的先前知识时可以进一步提高分类性能。

Jan, 2019

随机投影下的节点相似性：极限和病态案例

通过随机投影方法生成的嵌入向量在计算效率上得到了广泛应用，本文进一步研究了随机投影对点积和余弦相似度的保留效果并提供了新的理论结果，找出了病态案例并用数值实验进行了测试，发现对于低度或高度节点，此方法在点积上得到的嵌入向量相对不可靠，而与随机投影引入的统计噪声相比，余弦相似度得到了更精确的近似。

Apr, 2024

激活样本方差的方差正则化

通过添加一个新的损失项，将神经网络激活函数的方差稳定下来，使其围绕几个不同的模式分布，并将这种正则化项与 batchnorm 方法联系起来，提高了卷积神经网络和全连接网络的准确性。

Nov, 2018