MDS-ViTNet: 基于视觉 Transformer 改进注视预测的方法

May, 2024

MDS-ViTNet: 基于视觉 Transformer 改进注视预测的方法

MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer

Polezhaev Ignat, Goncharenko Igor, Iurina Natalya

TL;DR本文介绍了一种名为 MDS-ViTNet（多解码视觉变换网络）的新方法，用于增强视觉显著性预测和眼动跟踪。该方法在多个领域具有重要潜力，包括市场营销、医学、机器人技术和零售业。我们提出了一种利用 Vision Transformer 的网络架构，超越传统的 ImageNet 骨干。该框架采用编码器 - 解码器结构，其中编码器利用 Swin 变换器有效地嵌入最重要的特征。通过转换器将 Vision Transformer 的层转换并无缝集成到 CNN 解码器中，从而实现了该过程。编码器 - 解码器方法能够最小化原始输入图像的信息损失。解码器采用多解码技术，利用双解码器生成两个不同的关注度图。通过附加的 CNN 模型将这些图合并为单一输出。我们训练的模型 MDS-ViTNet 在多个基准测试中实现了最新的结果。为了促进进一步的合作，我们计划将我们的代码、模型和数据集开放给公众使用。

Abstract

In this paper, we present a novel methodology we call mds-vitnet (Multi Decoder Saliency by vision transformer Network) for enhancing visual saliency prediction or →

mds-vitnet visual saliency prediction eye-tracking vision transformer multi-decoding

发现论文，激发创造

基于 Transformer 的高时序维度解码的视频显著性预测

基于变压器的高时间维度解码网络（THTD-Net）是一种用于视频显著性预测的策略，通过对时态特征进行聚合，从而在常见基准测试中展现出与多分支和过于复杂模型相当的性能。

Jan, 2024

视觉显著性转换器

本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器（VST），通过建模长程依赖关系，实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明，该方法在常用数据集上表现出色，并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。

Apr, 2021

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

我们提出了一种新颖的方法，用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力，比基于梯度的方法更高效。通过大量的扰动测试，我们在 nuScenes 数据集上评估了所提出的方法，并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI，通过更透明地了解 AI 模型的内部工作，可以提高人们对 AI 应用的信任。

Dec, 2023

MED-VT：多尺度编码器 - 解码器视频 Transformer 及其在对象分割中的应用

本文提出了一种统一的多尺度编码 - 解码变形器，重点针对视频中的密集预测任务，利用编码器和解码器的多尺度表示提取时空特征以及进行精确的定位，同时采用多对多标签传播的转导学习方案，实现高精度视频对象分割和演员 / 动作分割。

Apr, 2023

MaxViT-UNet: 医学图像分割的多轴注意力

提出了 MaxViT-UNet，一种基于编码器 - 解码器的混合视觉 Transformer，用于医学图像分割，其使用多轴自注意力机制实现了胞核区域的准确分割，并在 MoNuSeg 数据集上实现了比以前的 CNN only 和 Transformer only 技术更好的 Dice 指标。

May, 2023

使用 Transformer 的视觉跟踪

本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络，通过自我关注模块和交叉注意力，提高了全局和丰富的背景信息获取，支持超越局部特征的追踪效果，在多个基准测试上表现出优异的性能。

May, 2021

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023

基于 Vision Transformer 的简单且高效网络用于伪装物体和显著物体检测

本文提出了一种简单而有效的基于 Vision Transformer（ViT）的网络（SENet），通过采用一种基于不对称 ViT 的编码器 - 解码器结构的简单设计，在隐藏目标检测和显著目标检测两个任务上取得了有竞争力的结果，在精细设计的复杂网络上展现出更大的多样性。

Feb, 2024

基于上下文编码器 - 解码器网络的视觉显著性预测

该论文提出了一种基于卷积神经网络的方法，通过提取多尺度的高级视觉特征和上下文信息，结合全局场景信息，用于准确预测视觉显著性，可以适用于资源受限的应用，如（虚拟）机器人系统，从而在多个基准测试数据集上取得了有竞争力和一致的结果。

Feb, 2019

探索视觉 Transformer 层在语义分割中的选择

本文提出了一种名为 ViTController 的网络结构，用于动态自适应融合和特征选择，优于以往方法，可作为插件模块插入不同的网络。

May, 2023