UniST: 达到统一化的显著性转换器用于视频显著性预测与检测

Sep, 2023

UniST: 达到统一化的显著性转换器用于视频显著性预测与检测

UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection

Junwen Xiong, Peng Zhang, Chuanyue Li, Wei Huang, Yufei Zha...

TL;DR我们介绍了统一显著性转换（UniST）框架，通过综合利用视频显著性预测和视频显著物体检测的关键特性，提取帧序列的表示并设计一个考虑显著性的变换器，在逐渐增加的分辨率上学习时空表示，同时结合跨尺度显著性信息生成鲁棒的表示。根据可信的实验证明，所提出的 UniST 在两个任务的七个具有挑战性的基准测试中表现优越，并且明显优于其他最先进的方法。

Abstract

video saliency prediction and detection are thriving research domains that enable computers to simulate the distribution of visual attention akin to how humans perceiving dynamic scenes. While many approaches have crafted task-specific training paradigms for either →

video saliency prediction video salient object detection unified saliency transformer saliency-aware transformer transformer structure

发现论文，激发创造

统一图像和视频显著性建模

本文提出了一种称为 UNISAL 的简单轻量的编码器 - RNN - 解码器风格网络，以同时对图像和视频显著性数据进行训练，并使用四种新颖的域自适应技术 - 域自适应先验，域自适应融合，域自适应平滑和旁路 - RNN 处理域偏移问题，在 DHF1K、Hollywood-2 和 UCF-Sports 等视频数据集以及 SALICON 和 MIT300 等图像数据集上取得了最先进的性能

Mar, 2020

UniST：用于城市时空预测的提示增强通用模型

UniST 是一个通用模型，通过对多样的时空数据特征的灵活性、精心设计的掩模策略以及时空知识引导的提示，实现对城市时空预测的强大泛化能力，15 个城市和 6 个领域的广泛实验证明了 UniST 在提升最先进预测性能方面的普适性，特别是在少样本和零样本情况下。

Feb, 2024

视觉显著性转换器

本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器（VST），通过建模长程依赖关系，实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明，该方法在常用数据集上表现出色，并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。

Apr, 2021

VST++：高效且更强力的视觉显著性 Transformer

我们提出了一种名为 VST++ 的有效且强大的模型，以更低的计算成本实现了比现有方法更好的性能，同时突出了其潜力。

Oct, 2023

高效 RGB-T 跟踪的统一单级 Transformer 网络

我们提出了一个统一的单阶段 Transformer RGB-T 跟踪网络，名为 USTrack，它通过自注意机制将上述三个阶段统一到一个 ViT（Vision Transformer）主干中，并利用模态之间的相互作用提取融合特征，增强预测的目标 - 背景区分度，同时通过模态可靠性的特征选择机制改善跟踪性能。通过在三个流行的 RGB-T 跟踪基准上进行广泛实验，证明我们的方法在保持最快推理速度 84.2FPS 的同时，实现了新的最先进性能，特别是在 VTUAV 数据集的短期和长期子集上，MPR/MSR 分别增加了 11.1% 和 11.3%。

Aug, 2023

SUSiNet: 看见、理解和总结

该研究提出了一种多任务时空网络 ——SUSiNet，可以共同解决显著性估计、动作识别和视频摘要的时空问题。该方法使用一个联合端到端训练的单个网络，使用与探索任务相关的多个数据集。该网络使用统一的体系结构，包括全局和任务特定层，并通过使用相同的视频输入产生多种输出类型。此外，该网络可以通过与人类注意力相关的注意力模块进行深度监督。研究结果表明，该多任务网络的性能与单个任务方法一样好（在某些情况下更好），而且所需的计算预算比每个任务单独使用的网络要少。

Dec, 2018

一石二鸟：图像和视频风格转换联合学习的统一框架

本文介绍了一种基于统一风格转移框架 UnST 和领域交互变压器（DIT）的方法，使得同时能实现对图像和视频完成风格转移任务。实验表明 UniST 在图像和视频领域中与现有方法相比表现更佳，通过简单而有效的轴向多头自我关注（AMSA）获得更高的计算效率和风格转移表现。

Apr, 2023

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

SUM: 基于瞳蛇的视觉注意力建模中的显著性统一

通过将 Mamba 的高效远程依赖建模与 U-Net 相结合，我们提出了一种新颖的方法 SUM（Saliency Unification through Mamba），为不同类型的图像提供统一的模型，并通过全面的评估显示 SUM 能够适应不同的视觉特征并始终优于现有模型，从而使 SUM 成为推动视觉注意力建模的多功能且强大的工具。

Jun, 2024

DiffSal: 扩散显著性预测的音频和视频联合学习

本研究提出了一种基于扩散架构的音视频显著性预测方法（DiffSal），使用音频和视频作为条件，通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题，并在六个具有挑战性的音视频基准任务中取得了优秀的性能。

Mar, 2024