高效视觉网络调制
本研究提出了一种基于聚焦调制机制的聚焦调制网络 (FocalNets), 其中自注意力机制被完全替换,实现了对于视觉信息的建模,并在图像分类、目标检测和分割等任务中取得了优越表现。
Mar, 2022
本文提出了基于方向聚焦的架构 Video-FocalNet,它是一种有效且高效的视频识别体系结构,用于同时对本地和全局上下文进行建模,相较于现今热门的视频识别模型,该识别模型在三大数据集上表现优异,具有更低的计算成本。
Jul, 2023
本文使用调制模块来增强相关任务之间的耦合度和特征共享,同时通过引入微小的参数进行无关任务的学习分离,使得多任务联合训练更加高效。在两个检索任务上的实验结果表明,与其他多任务学习方法相比,该方法在准确性和存储效率上都具有优势。
Jul, 2018
提出一种名为 MUXConv 的新型卷积神经网络层,旨在提高网络中空间和通道信息的流动以提高精度,与此同时保持计算效率;通过将其集成于一个高效的多目标进化算法中搜索最优模型超参数来证明 MUXConv 的有效性。在 ImageNet 上,MUXNet 几乎与 MobileNetV3 相当,但更加紧凑,且在人物检测和转移学习等情况下表现良好。
Mar, 2020
该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题,并提出了一种新颖的修剪方法来减少计算成本,该方法称为修剪补丁法,可以移除无用的补丁,从而显著降低模型的计算成本,而不会影响模型的性能。
Jun, 2021
本文提出一种新的课程学习方法,以高效训练视觉骨干(例如视觉变换器)。该方法利用深度网络的内在学习动态,实现在训练早期仅学习每个样例中更容易学习的部分,逐渐增加难度。通过在输入的 Fourier 频谱中引入裁剪操作,本方法可以更高效地学习低频信息,并通过减弱数据增强以暴露原始图像特征,设计了一种课程学习计划。结果表明,此方法简单、通用、有效,可以在不损失准确性的情况下,在 ImageNet-1K/22K 上将多种流行模型(例如 ResNet、ConvNeXt、DeiT、PVT、Swin 和 CSWin)的训练时间缩短 > 1.5 倍。
Nov, 2022
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
本文介绍了一种高效的纯 Transformer 设计方法 EfficientFormer,用于实现与 MobileNet 相当的性能且具有极低的推理延迟,它通过解决 ViT 中的存储器冗余问题来达到这一目的。
Jun, 2022
本文介绍了 EfficientNetV2, 这是一种新的卷积网络家族,具有比以前的模型更快的训练速度和更好的参数效率,同时采用了神经结构搜索和缩放相结合的方法,以共同优化训练速度和参数效率。通过逐渐增加图像大小来训练,我们的 EfficientNetV2 在 ImageNet 和 CIFAR / Cars / Flowers 数据集上显著优于以前的模型。
Apr, 2021
本文介绍了一种名为交叉调制网络的架构,可以利用特征调制机制在多个层次上实现支持示例和查询示例之间的交互,这种架构为少样本学习提供了一种新的方法。在 miniImageNet 的 5 路 1-shot 场景中,本文关键字提到的模型表现也达到最先进水平。
Dec, 2018