VST++:高效且更强力的视觉显著性 Transformer
本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器(VST),通过建模长程依赖关系,实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明,该方法在常用数据集上表现出色,并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。
Apr, 2021
本文提出了一种 Visual-Semantic Transformer 的模型,通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息,然后将语义信息和视觉特征序列组合成伪多域序列,进而通过交互模块增强视觉特征和语义信息之间的相互作用,从而实现文本识别。实验结果表明,该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。
Dec, 2021
我们提出了一种新颖的方法,用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力,比基于梯度的方法更高效。通过大量的扰动测试,我们在 nuScenes 数据集上评估了所提出的方法,并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI,通过更透明地了解 AI 模型的内部工作,可以提高人们对 AI 应用的信任。
Dec, 2023
该研究利用 RGB 图像估计深度信息,使用金字塔式的注意力机制从中提取多层级卷积变换的特征,综合使用残差卷积注意力解码器进行显著性预测,取得了比 21 种 RGB SOD 方法和 40 种 RGB-D SOD 方法更为优异的性能表现。
Apr, 2022
该论文提出了一个名为 UFO 的统一框架,通过引入自注意机制和内部 MLP 学习模块,结合图像的空间信息和特征相似性,实现了针对协同分割、协同显著性检测和视频显著性对象检测的多任务单一网络架构,实验结果表明,该方法在精度和速度方面均优于现有方法。
Mar, 2022
基于变压器的高时间维度解码网络(THTD-Net)是一种用于视频显著性预测的策略,通过对时态特征进行聚合,从而在常见基准测试中展现出与多分支和过于复杂模型相当的性能。
Jan, 2024
本文提出了一种简单而有效的基于 Vision Transformer(ViT)的网络(SENet),通过采用一种基于不对称 ViT 的编码器 - 解码器结构的简单设计,在隐藏目标检测和显著目标检测两个任务上取得了有竞争力的结果,在精细设计的复杂网络上展现出更大的多样性。
Feb, 2024
我们提出了一个统一的单阶段 Transformer RGB-T 跟踪网络,名为 USTrack,它通过自注意机制将上述三个阶段统一到一个 ViT(Vision Transformer)主干中,并利用模态之间的相互作用提取融合特征,增强预测的目标 - 背景区分度,同时通过模态可靠性的特征选择机制改善跟踪性能。通过在三个流行的 RGB-T 跟踪基准上进行广泛实验,证明我们的方法在保持最快推理速度 84.2FPS 的同时,实现了新的最先进性能,特别是在 VTUAV 数据集的短期和长期子集上,MPR/MSR 分别增加了 11.1% 和 11.3%。
Aug, 2023
介绍了一种基于 Transformer 的视频对象分割方法,称为 Sparse Spatiotemporal Transformers (SST),使用稀疏注意力抽取每个对象的每个像素表示,同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果,并具有比现有技术更好的可扩展性和鲁棒性。
Jan, 2021
通过收集新的注释 RGBD 视频 SOD(ViDSOD-100)数据集和提出了一种名为 ATF-Net 的新基线模型,本研究在 RGBD 视频显着目标检测方面取得了更好的性能。
Jun, 2024