RepNeXt: 一种使用结构重参数化的快速多尺度卷积神经网络
轻量级视觉变换器(ViTs)相较于资源受限的移动设备上的轻量级卷积神经网络(CNNs),通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级 CNNs 的高效设计,强调其在移动设备上的潜力,并通过整合轻量级 ViTs 的高效架构选择增强了一种新的纯轻量级 CNNs 家族,即 RepViT。大量实验证明,RepViT 优于现有的轻量级 ViTs,并在各种视觉任务中具有有利的延迟。在 ImageNet 上,RepViT 在 iPhone 12 上实现了超过 80%的 top-1 准确性,延迟接近 1 毫秒,这在我们的知识范围内是轻量级模型的首次。我们最大的模型 RepViT-M3 在仅 1.3 毫秒延迟下获得了 81.4%的准确性。代码和训练模型可在 https://github.com/jameslahm/RepViT 找到。
Jul, 2023
本研究提出了一种新型的轻量神经网络 EdgeNeXt,通过引入 STDA 编码器,在不增加计算成本的情况下,将 CNN 和 Transformer 模型的优点结合起来,以实现多尺度特征的编码和有效利用,从而达到资源高效的目的。在分类、检测和分割任务中,较之于其他最先进方法,EdgeNet 在计算要求较低的条件下表现出更佳的性能,表现出其在实践中的潜力。
Jun, 2022
本文提出 Next-ViT 模型,使用 Next Convolution Block 和 Next Transformer Block 捕获局部和全局信息,以加速多种视觉任务的表现,同时保持与最先进的 CNN-Transformer 混合框架的可比性,可用于实际工业场景中的高效部署。
Jul, 2022
本文提出了一种 MobileViT 轻量级通用视觉变换器,将 transformers 视为卷积,可用于移动设备,取得了比 CNN 和 ViT 更好的性能,特别是在对象检测任务上。
Oct, 2021
利用神经架构搜索(NAS)设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS,其中融合了两个技术:残差空间缩减和权重共享 NAS,实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。
Sep, 2021
该研究提出了一种基于数据规模的感知偏差交替方法,通过将卷积和自注意力之间的重参数化插值来调整感知偏差。这种方法在小规模数据集上比之前的研究方法更优秀,如 CIFAR-100。
Oct, 2022
提出了一种有效的结构,通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。
Sep, 2023
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
本文提出了基于结构重参数化技术训练高效的 VGG-style 超分辨率网络,并探讨了针对超分辨率网络的 BN 问题的解决方法以及设计了新的 RePSR 块,实验证明该方法可以在不同的模型大小下达到更高的性能和更好的性能和实际运行时间平衡。
May, 2022
基于自注意力机制的视觉转换器(ViTs)因其对长距离空间依赖关系和大规模训练的出色能力而受到了广泛的关注,然而,其二次复杂度限制了其在许多需要快速推理的场景中的应用。受到自然语言处理中并行化模型的启发,我们提出了一种新的计算机视觉模型,命名为视觉保留网络(ViR),具有双并行和循环结构,以在快速推理和并行训练之间达到最佳平衡,并在需要更高分辨率图像的任务中具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法,我们通过大量实验证实了 ViR 的有效性,并提供了代码和预训练模型的公开获取。
Oct, 2023