- U-Nets 作为信念传播:在生成层次模型中高效分类、去噪和扩散
通过研究某些生成式分层模型,本文引入了 U-Net 架构的新解释,它是一种在语言和图像领域广泛使用的树状结构图模型。我们演示了 U-Net 如何自然地在这些生成式分层模型中实现置信传播去噪算法,并以此高效逼近去噪函数。此外,我们讨论了这些发 - PaPr: 轻量级卷积神经网络的无需训练一步裁剪补丁,以加速推理
利用轻量级 ConvNets,通过简单的权重重新计算策略来标定图像中的关键区域,从而实现对冗余补丁的显著剪枝并提高判别补丁的定位性能。通过该方法,可以在不再训练的情况下,对多种深度学习架构,包括 ConvNets 和 ViTs 等进行高效的 - CVPRVideoMAC: 视频蒙版自动编码器与卷积神经网络相遇
这篇论文介绍了一种名为 VideoMAC 的新方法,结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets,以及一种称为 MVM 的简单而有效的遮罩视频建模方法,通过在下游任务中的表现超过了基于 ViT 的方法。
- conv_einsum:卷积张量神经网络中多线性操作的表示和快速计算框架
这篇论文提出了一种用于表示张量卷积层的统一框架,以及一种能够以最小化浮点操作数(FLOPs)的方式评估这些框架的方法,实验证明 conv_einsum 显著提高了卷积张量网络的计算和内存效率。
- DECO: 基于查询的端到端目标检测与卷积神经网络
通过构建一个基于查询的以卷积网络为基础的端到端目标检测框架 DECO,本研究探索了是否能够用卷积网络来取代复杂的 Transformer 架构,该框架在复杂性较低的情况下实现了与传统的物体检测模型相媲美的性能,并带来了另一种设计目标检测框架 - 规模上,卷积神经网络与视觉变压器相等
评估在 JFT-4B 预先训练的高效 ConvNet 架构,发现在合适的计算预算下,在 ImageNet 上微调后,NFNets 能够与 Vision Transformers 达到可比的性能。
- 局部压缩视频流学习用于通用事件边界检测
使用压缩视频表示学习方法进行事件边界检测,利用压缩域中的丰富信息,提取 P 帧特征并使用轻量级 ConvNets 和时序关系捕捉器进行特征表示精炼,最后使用简单分类器确定视频序列的事件边界。
- 掩蔽以改进卷积神经网络的对比式自监督学习,并揭示显著性
通过在卷积神经网络中引入掩蔽操作作为额外的数据增强方法,并显式考虑显著性约束,本研究提出了一种改进的对比学习框架,以减轻包括掩蔽操作在内的对比学习中存在的问题,并在多个数据集、对比学习机制和下游任务上进行的广泛实验验证了其有效性和卓越性能。
- 将视觉 Transformer 解析为具有动态卷积的卷积神经网络
我们将视觉 Transformer 解释为具有动态卷积的 ConvNets,并在统一框架中比较它们的设计选择,证明了视觉 Transformer 可以以 ConvNets 的设计空间为参考,从而指导网络设计,并展示了如何通过更换激活函数和创 - 自动驾驶中运动预测的高效基线
我们提出了一种基于 Argoverse 的有效基准线方法,旨在利用用于 Motion Prediction 的最新技术,包括注意力机制和 GNNs,来生成可行的多模态轨迹,以较少的操作和参数实现与其他 SOTA 方法相当的准确性。
- 卷积神经网络是如何理解图像强度的?
本文研究了卷积神经网络在图像分类任务中需要依赖图像强度信息的情况,并通过可视化方法证明了该网络确实依赖于图像强度信息。
- LowDINO -- 一个低参数的自监督学习模型
本研究旨在探索设计一种神经网络架构,使小型网络能够采用自监督学习中已显示出成功的大型网络的属性,用于图像分类、分割等所有下游任务。
- 针对雨雪天气去除的有效高效 Transformer
RSFormer 是一种高效有力的 Transformer,专门用于消除受天气影响的图像中的雨迹和雪花,它通过将 ConvNets 和 Vision Transformers 在分层结构中的接近度结合起来,利用替代自注意力机制的 Trans - ECCV视频模型中的动态时间滤波
该研究提出了一种名为 Dynamic Temporal Filter (DTF) 的方法,能够在频率域进行空间感知的时间建模,并具有较大的时间感受野,可将 DTF 模块嵌入 ConvNets 和 Transformer 中,实验结果表明其优 - 高效多阶门控聚合网络
本文提出了一种新型的纯 ConvNet 架构,即 MogaNet,该架构通过游戏论反映了不同尺度的情境下变量之间的相互作用效应,采用深度卷积优化了空间和通道空间的中阶信息,从而在 ImageNet 等多种典型视觉基准上取得了与最先进模型相当 - Conv-Adapter:探索参数高效的卷积神经网络迁移学习
本文提出了 Conv-Adapter,一种适用于 CV 的参数高效调整方法,通过学习特定任务的高效特征调整使得在各种分类下游任务上表现出色,且具有与传统方法相当的性能,同时适用于检测和分割任务。
- ICML自适应上下文池化的高效表征学习
该研究提出了 ContextPool,一种自适应的注意力机制,用于增强在 transformer 模型中的自注意力机制,实现了更强的性能表现(在语言和图像基准测试中),达到了最新的研究结论,并适用于卷积神经网络进行高效的特征学习。
- 更多关注视觉语言跟踪
本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法,通过模态混合器(ModaMixer)和不对称的 ConvNet 搜索,学习新颖的统一自适应 VL 表示,仅使用 ConvNets 能够在 SOTA 追踪中表现出色, - 通用事件边界检测的端到端压缩视频表示学习
该研究提出了一种基于压缩视频表示学习的端到端事件边界检测新方法,该方法利用压缩域中的丰富信息进行特征提取和边界检测,并在 Kinetics-GEBD 数据集上进行了广泛的实验,取得了与最先进方法相当的结果,并具有更快的运行速度。
- CVPR2020 年代用于 ConvNet(卷积神经网络)的神经网络
本研究重新审视设计空间,逐步将标准 ResNet 现代化为 Vision Transformer 的设计,发现了几个关键组件,并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞