深度卷积神经网络遇上全局协方差池化:更好的表示和泛化
本研究尝试从优化的角度研究了全局协方差池化在深度卷积神经网络上的作用机理,发现全局协方差池化可以使优化损失更加平滑,梯度更具预测性,从而提高网络的稳定性、鲁棒性和泛化能力。相关实验证实了以上结论以及全局协方差池化对快速训练、图像失真和扰动下的鲁棒性、不同任务的泛化等方面的优点。
Mar, 2020
该论文提出了一种基于高级特征的协方差汇集方法,即 Matrix Power Normalized Covariance (MPN-COV),并在 ImageNet 上的测试中表现出了显著的成果,特别是在 AlexNet,VGG-M 和 VGG-16 的情况下,MPN-COV 方法可以使性能提高超过 3%,并且与 ResNet-152 相媲美。
Mar, 2017
通过引入迭代矩阵平方根归一化方法,本文提出一种针对全局协方差池化网络的快速端到端训练方案,相比于依赖于 GPU 有限支持的 EIG 或 SVD 的方法更加高效,并且可以在更少的 epoch 内获得更好的性能。
Dec, 2017
本文提出了一种基于时间注意力和内帧关联的计算方式 ——Temporal-attentive Covariance Pooling (TCP),它可以灵活地集成到任何视频架构中,用于生成强大的视频表示,它在六个基准测试中都表现出优异的性能,并具有强大的泛化能力。
Oct, 2021
本研究探讨使用流形网络结构进行协方差池化对于人脸表情识别的改进,并且使用该方法在 Static Facial Expressions in the Wild(SFEW 2.0)和 Real-World Affective Faces(RAF)数据库上的准确率分别达到了 58.14% 和 87.0% 的最佳结果,同时这种池化方法也可用于视频人脸表情识别中。
May, 2018
本文研究了归一化二阶卷积特征的几种方式,其中以矩阵平方根归一化和元素平方根加 L2 归一化的方案为最佳,改进后在细粒度识别数据集上性能提高了 2-3%。研究还发现,在边界情况得到合理处理后,用于计算梯度的数值方法与网络的最终准确性关系较小。本文最终提出一种快速实现效果相当的固定迭代次数方法,可用于 GPU 上进行实现。
Jul, 2017
该文章提出了一种用于视觉任务的 MoNet 结构,它使用了二阶池化的双线性池化方法并通过子矩阵平方根层来解决维度问题,结合矩阵规范化和其他阶信息,实验结果表明,MoNet 在三个公开的图像分类数据集上表现良好,可实现与具有比其 96% 更少维度的编码特征相当的性能。
Feb, 2018
本文针对在深度卷积网络较早的层次有效引入二阶表示进行非线性建模的问题,提出了一种新的网络模型,并利用全局二阶池化 (GSoP) 对低到高层次进行二阶表示引入,使图像信息得到全面利用,实验结果表明,在 ImageNet-1K 数据集上,该网络模型优于同类网络,具有最先进的结果。
Nov, 2018
本论文研究了深度神经网络的多领域学习问题,并提出了一种自适应层和称作协方差规范化(CovNorm)的简单方法来减少其参数。实验证明,在目标数据集顺序或同时可用的情况下,CovNorm 可以与全面调整的网络具有相当的性能。
Jun, 2019
本文研究深度学习应用中的 Power Normalizations 及其函数 MaxExp 与 Gamma,提供概率解释并寻找训练中合适的替代函数,同时探究 Spectral Power Normalizations 的谱适用性与热扩散过程的关系,最终提出了基于谱的 MaxExp,并在图像和图分类等领域进行了实验验证。
Dec, 2020