May, 2024

MDS-ViTNet: 基于视觉 Transformer 改进注视预测的方法

TL;DR本文介绍了一种名为 MDS-ViTNet(多解码视觉变换网络)的新方法,用于增强视觉显著性预测和眼动跟踪。该方法在多个领域具有重要潜力,包括市场营销、医学、机器人技术和零售业。我们提出了一种利用 Vision Transformer 的网络架构,超越传统的 ImageNet 骨干。该框架采用编码器 - 解码器结构,其中编码器利用 Swin 变换器有效地嵌入最重要的特征。通过转换器将 Vision Transformer 的层转换并无缝集成到 CNN 解码器中,从而实现了该过程。编码器 - 解码器方法能够最小化原始输入图像的信息损失。解码器采用多解码技术,利用双解码器生成两个不同的关注度图。通过附加的 CNN 模型将这些图合并为单一输出。我们训练的模型 MDS-ViTNet 在多个基准测试中实现了最新的结果。为了促进进一步的合作,我们计划将我们的代码、模型和数据集开放给公众使用。