VST++：高效且更强力的视觉显著性 Transformer

Oct, 2023

VST++：高效且更强力的视觉显著性 Transformer

VST++: Efficient and Stronger Visual Saliency Transformer

Nian Liu, Ziyang Luo, Ni Zhang, Junwei Han

TL;DR我们提出了一种名为 VST++ 的有效且强大的模型，以更低的计算成本实现了比现有方法更好的性能，同时突出了其潜力。

Abstract

While previous CNN-based models have exhibited promising results for salient object detection (SOD), their ability to explore global long-range dependencies is restricted. Our previous work, the visual saliency transformer (VST), addressed this constraint from a transformer-based seque

salient object detection visual saliency transformer transformer-based architectures select-integrate attention computational costs

发现论文，激发创造

视觉显著性转换器

本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器（VST），通过建模长程依赖关系，实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明，该方法在常用数据集上表现出色，并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。

Apr, 2021

场景文本识别的视觉语义变换器

本文提出了一种 Visual-Semantic Transformer 的模型，通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息，然后将语义信息和视觉特征序列组合成伪多域序列，进而通过交互模块增强视觉特征和语义信息之间的相互作用，从而实现文本识别。实验结果表明，该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。

Dec, 2021

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

我们提出了一种新颖的方法，用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力，比基于梯度的方法更高效。通过大量的扰动测试，我们在 nuScenes 数据集上评估了所提出的方法，并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI，通过更透明地了解 AI 模型的内部工作，可以提高人们对 AI 应用的信任。

Dec, 2023

金字塔式关注网络用于显著性检测

该研究利用 RGB 图像估计深度信息，使用金字塔式的注意力机制从中提取多层级卷积变换的特征，综合使用残差卷积注意力解码器进行显著性预测，取得了比 21 种 RGB SOD 方法和 40 种 RGB-D SOD 方法更为优异的性能表现。

Apr, 2022

面向组群分割的统一 Transformer 框架：协同分割，共同显著性检测和视频显著对象检测

该论文提出了一个名为 UFO 的统一框架，通过引入自注意机制和内部 MLP 学习模块，结合图像的空间信息和特征相似性，实现了针对协同分割、协同显著性检测和视频显著性对象检测的多任务单一网络架构，实验结果表明，该方法在精度和速度方面均优于现有方法。

Mar, 2022

基于 Transformer 的高时序维度解码的视频显著性预测

基于变压器的高时间维度解码网络（THTD-Net）是一种用于视频显著性预测的策略，通过对时态特征进行聚合，从而在常见基准测试中展现出与多分支和过于复杂模型相当的性能。

Jan, 2024

基于 Vision Transformer 的简单且高效网络用于伪装物体和显著物体检测

本文提出了一种简单而有效的基于 Vision Transformer（ViT）的网络（SENet），通过采用一种基于不对称 ViT 的编码器 - 解码器结构的简单设计，在隐藏目标检测和显著目标检测两个任务上取得了有竞争力的结果，在精细设计的复杂网络上展现出更大的多样性。

Feb, 2024

高效 RGB-T 跟踪的统一单级 Transformer 网络

我们提出了一个统一的单阶段 Transformer RGB-T 跟踪网络，名为 USTrack，它通过自注意机制将上述三个阶段统一到一个 ViT（Vision Transformer）主干中，并利用模态之间的相互作用提取融合特征，增强预测的目标 - 背景区分度，同时通过模态可靠性的特征选择机制改善跟踪性能。通过在三个流行的 RGB-T 跟踪基准上进行广泛实验，证明我们的方法在保持最快推理速度 84.2FPS 的同时，实现了新的最先进性能，特别是在 VTUAV 数据集的短期和长期子集上，MPR/MSR 分别增加了 11.1% 和 11.3%。

Aug, 2023

SSTVOS: 稀疏时空 Transformer 用于视频物体分割

介绍了一种基于 Transformer 的视频对象分割方法，称为 Sparse Spatiotemporal Transformers (SST)，使用稀疏注意力抽取每个对象的每个像素表示，同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果，并具有比现有技术更好的可扩展性和鲁棒性。

Jan, 2021

ViDSOD-100: 一个新的 RGB-D 视频显著物体检测数据集和基线模型

通过收集新的注释 RGBD 视频 SOD（ViDSOD-100）数据集和提出了一种名为 ATF-Net 的新基线模型，本研究在 RGBD 视频显着目标检测方面取得了更好的性能。

Jun, 2024