MED-VT:多尺度编码器 - 解码器视频 Transformer 及其在对象分割中的应用
Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器,它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔,它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。
Apr, 2021
本文提出了一种简单的视觉 Transformer 设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
通过提出一种新颖的,DET-R 风格的编码器 - 解码器架构,我们克服了长视频中有关小对象的数据特性所带来的挑战,并在两个复杂数据集上实现了最先进的性能。
Dec, 2023
提出了一种名为 Multiscale Multiview Vision Transformers(MMViT)的 transformer 模型,它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图,并使用交叉注意力块将不同视图的信息融合在一起,从而实现对输入的复杂高维表示。在音频和图像分类任务上,通过实验证明了 MMViT 的有效性和达到了最先进的结果。
Apr, 2023
本文介绍了一种名为 MDS-ViTNet(多解码视觉变换网络)的新方法,用于增强视觉显著性预测和眼动跟踪。该方法在多个领域具有重要潜力,包括市场营销、医学、机器人技术和零售业。我们提出了一种利用 Vision Transformer 的网络架构,超越传统的 ImageNet 骨干。该框架采用编码器 - 解码器结构,其中编码器利用 Swin 变换器有效地嵌入最重要的特征。通过转换器将 Vision Transformer 的层转换并无缝集成到 CNN 解码器中,从而实现了该过程。编码器 - 解码器方法能够最小化原始输入图像的信息损失。解码器采用多解码技术,利用双解码器生成两个不同的关注度图。通过附加的 CNN 模型将这些图合并为单一输出。我们训练的模型 MDS-ViTNet 在多个基准测试中实现了最新的结果。为了促进进一步的合作,我们计划将我们的代码、模型和数据集开放给公众使用。
May, 2024
本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构,提出了一种改进版本的架构,将分解相对位置嵌入和残差池连接融入 MViTv2,并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中,取得了优异的性能,在三个领域的实验表明,相比于传统的拼合注意力机制,MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。
Dec, 2021
本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型,通过实现不同空间和时间的分辨率,利用多个 encoder 对视频进行建模,从而在六个标准数据集上取得了最优秀的结果。
Jan, 2022
本文提出了一种新的基于 transformer 的框架 TransVOS,利用视觉 transformer 来充分利用和建模时间和空间关系,在保持效果的同时减少了模型参数和复杂性,从而实现了半监督视频对象分割中的最新性能。
Jun, 2021
3D 目标检测中的突出问题是大规模室外场景下对象尺度的变化,需要同时获取远距离和细粒度信息的特征。为了解决这一问题,我们提出了 MsSVT++,一种创新的混合尺度稀疏体素变换器,通过分治方法同时捕捉两类信息。使用棋盘采样策略和哈希映射在 3D 体素空间中进行稀疏的体素采样和聚集操作,以减轻基于窗口的变换器的计算复杂性。同时,引入了中心投票模块,将混合尺度上下文信息丰富的新体素朝着对象中心进行集成,从而提高了精确的对象定位。广泛的实验证明,我们的单阶段检测器在 MsSVT++ 的基础上,对不同的数据集始终表现出优异的性能。
Jan, 2024
本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示,同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法,以提高深度估计的准确性。实验证明,这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。
Dec, 2023