卷积神经网络的数据相关初始化
本文提出了一种通过使用卷积滤波器的低秩表示来创建计算有效卷积神经网络的新方法,该方法通过学习一组小的基础过滤器从头开始进行训练,使网络有效地初始化连接权重。通过使用该方法,我们在CIFAR、ILSVRC和MIT Places数据集上训练了几种现有的CNN体系结构,并证实其优异的性能。
Nov, 2015
该论文研究了在测试时具有计算资源限制的图像分类问题,并通过训练多个带有不同资源需求的分类器并将其作为早期退出引入单个深度卷积神经网络中以最大程度地重用计算,实现了在任意时间进行预测和分配不同的计算量来分类一组样本,框架显著改善了现有技术在两种情况下的表现。
Mar, 2017
使用随机初始化的标准模型,在 COCO 数据集上进行的目标检测和实例分割,结果不劣于它们的 ImageNet 预训练模型,证明预训练模型并不一定能提高模型最终的准确性。
Nov, 2018
本文提出一种新的深度神经网络操作Atomic Involution,其将传统卷积的空间不可知和通道特异性原则进行了倒置,可作为构建新一代神经网络的基础砖块并提高了卷积基线的性能。
Mar, 2021
本文研究的是卷积神经网络的权重分布偏移对于预训练模型的稳健性的影响,提出了一个包含超过14亿卷积滤波器的数据集,并通过分析数据集展示了现有预训练模型的一些局限性。
Mar, 2022
通过研究学习卷积核的协方差,提出了一种针对卷积滤波器的学习自由的多元初始化方案,该方案的性能优于传统的随机初始化方法,并且在某些情况下,即使不训练深度卷积滤波器,也可以提高性能。
Oct, 2022
通过模仿预训练Transformer的权重,使用模拟初始化方案沿用这些权重,能在视觉任务中提高Vanilla Transformers的最终准确度,并使训练速度更快。
May, 2023
本研究探讨了卷积神经网络在小初始化和梯度训练方法下内核权重的凝聚现象,实验证明该现象在卷积神经网络中同样存在且显著。理论上,本研究证明在有限的训练期间,具有小初始化的两层卷积神经网络内核将收敛至一个或几个方向,为对具有专业结构的神经网络表现出的非线性训练行为的更好理解迈出了一步。
May, 2023
我们研究了在小数据集上训练视觉转换网络所面临的挑战,发现卷积神经网络可以通过利用其体系结构归纳偏差实现最先进的性能。我们探索了这种归纳偏差是否可以重新解释为视觉转换网络中的初始化偏差,并提出了一种新的初始化策略,可以在小数据集上实现与卷积神经网络相当的性能,同时保留其架构的灵活性。
Jan, 2024
本文探讨了视觉transformer(ViT)网络在小规模数据集上的训练问题,提出了通过重新解释卷积神经网络(CNN)的架构偏差作为ViT的初始化偏差,使其在小规模问题上表现出色,并保持其在大规模应用中的灵活性,该方法在诸多基准数据集(包括CIFAR-10、CIFAR-100和SVHN)上实现了最先进的数据高效ViT学习性能。
Apr, 2024