2020年代更多的ConvNets:使用稀疏性将核心扩展到超过51x51
本文研究卷积神经网络中大核设计在现代网络中的应用,提出了五个指南以设计高效的,基于大卷积核的CNN,并使用RepLKNet网络来实现可以与ViTs相媲美的结果,具有很好的方法可扩展性和性能表现优势。
Mar, 2022
本文提出空间分割卷积及其大卷积核模块来解决直接应用大卷积核在3D CNNs中遇到的困难,大卷积核3D CNN网络可以用于语义分割和物体检测,取得了较高的性能,说明大卷积核在3D视觉任务中是可行并且必不可少的。
Jun, 2022
提出了一种类似于Inception的新型卷积操作Inception depthwise convolution,将大核卷积分解为四个通道维度上的平方小核、两个正交带状核和一个恒等映射,用于构建高吞吐量且性能表现强劲的网络InceptionNeXt,取得了与性能相当的同时大幅提升训练效率,并可作为减少碳足迹的未来架构设计基线。
Mar, 2023
研究表明,现代大核卷积神经网络对于小核卷积神经网络的教学更加有效,从而更适合于知识蒸馏。在使用大到小核蒸馏的过程中,大卷积神经网络的良好特性,例如更大的有效接收域,可以顺利地传递到学生身上,并且在ImageNet上实现了83.1%的top-1准确度,超过了当前的SOTA方法,包括ConvNeXt V2和Swin V2
May, 2023
我们提出了四种用于设计大核卷积神经网络的架构指南,并发现大核对于拓展卷积神经网络在非视觉领域具有卓越表现的关键因素。我们的模型在图像识别、时间序列预测和音频识别任务中表现出卓越性能,优于其他竞争模型,并且无需对体系结构进行特定模态的定制化处理。
Nov, 2023
最近的研究发现,视觉变换器(ViTs)的出色性能得益于大的接受域。因此,大型卷积核设计成为了使卷积神经网络(CNNs)再次伟大的理想解决方案。然而,典型的大卷积核证明是不符合各种硬件平台的操作符,导致不兼容。因此,简单地扩大卷积核尺寸是不明智的。本文中,我们揭示了小卷积核和卷积操作可以实现与大卷积核尺寸相近的效果。然后,我们提出了一种能够在保持硬件友好性的同时通过稀疏机制,确保CNNs捕捉长距离依赖关系的位移式操作符。实验结果表明,我们的位移式操作符显著提高了常规CNN的准确性,同时大幅降低了计算要求。在ImageNet-1k上,我们增强的位移式CNN模型胜过了最先进的模型。代码和模型详见该网址。
Jan, 2024
我们提出了一种人类视觉启发的周边卷积方法,通过参数共享高效地减少了密集网格卷积的参数数量超过90%,并且成功实现了卷积核大小的可扩展性。基于这种方法,我们提出了一种参数高效的大核心网络(PeLK),在各种视觉任务中,包括ImageNet分类、ADE20K的语义分割和MS COCO的目标检测,PeLK都优于现代视觉Transformer和ConvNet架构。我们首次将CNN的卷积核大小扩展到了101x101,并展示了持续的改进效果。
Mar, 2024
本文研究了大核卷积网络的鲁棒性及其与典型小核网络和视觉转换器的差异,并通过定量和定性实验揭示了大核卷积网络独特的特性,证明了纯卷积神经网络可以达到与视觉转换器相当甚至更高的鲁棒性,同时提供了关于鲁棒性来源的新见解。
Jul, 2024
本文解决了现代卷积神经网络设计中对大卷积核应用不足的问题。通过提出大核卷积神经网络的架构设计原则,并验证其在准确性和效率上的提升,本研究开发了UniRepLKNet架构,该模型在多个任务中均表现出色,展示了大卷积核的普适建模能力及更快的推理速度,推动了相关领域的研究进展。
Oct, 2024