UniST: 达到统一化的显著性转换器用于视频显著性预测与检测
本文提出了一种称为 UNISAL 的简单轻量的编码器 - RNN - 解码器风格网络,以同时对图像和视频显著性数据进行训练,并使用四种新颖的域自适应技术 - 域自适应先验,域自适应融合,域自适应平滑和旁路 - RNN 处理域偏移问题,在 DHF1K、Hollywood-2 和 UCF-Sports 等视频数据集以及 SALICON 和 MIT300 等图像数据集上取得了最先进的性能
Mar, 2020
UniST 是一个通用模型,通过对多样的时空数据特征的灵活性、精心设计的掩模策略以及时空知识引导的提示,实现对城市时空预测的强大泛化能力,15 个城市和 6 个领域的广泛实验证明了 UniST 在提升最先进预测性能方面的普适性,特别是在少样本和零样本情况下。
Feb, 2024
本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器(VST),通过建模长程依赖关系,实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明,该方法在常用数据集上表现出色,并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。
Apr, 2021
我们提出了一个统一的单阶段 Transformer RGB-T 跟踪网络,名为 USTrack,它通过自注意机制将上述三个阶段统一到一个 ViT(Vision Transformer)主干中,并利用模态之间的相互作用提取融合特征,增强预测的目标 - 背景区分度,同时通过模态可靠性的特征选择机制改善跟踪性能。通过在三个流行的 RGB-T 跟踪基准上进行广泛实验,证明我们的方法在保持最快推理速度 84.2FPS 的同时,实现了新的最先进性能,特别是在 VTUAV 数据集的短期和长期子集上,MPR/MSR 分别增加了 11.1% 和 11.3%。
Aug, 2023
该研究提出了一种多任务时空网络 ——SUSiNet,可以共同解决显著性估计、动作识别和视频摘要的时空问题。该方法使用一个联合端到端训练的单个网络,使用与探索任务相关的多个数据集。该网络使用统一的体系结构,包括全局和任务特定层,并通过使用相同的视频输入产生多种输出类型。此外,该网络可以通过与人类注意力相关的注意力模块进行深度监督。研究结果表明,该多任务网络的性能与单个任务方法一样好(在某些情况下更好),而且所需的计算预算比每个任务单独使用的网络要少。
Dec, 2018
本文介绍了一种基于统一风格转移框架 UnST 和领域交互变压器(DIT)的方法,使得同时能实现对图像和视频完成风格转移任务。实验表明 UniST 在图像和视频领域中与现有方法相比表现更佳,通过简单而有效的轴向多头自我关注(AMSA)获得更高的计算效率和风格转移表现。
Apr, 2023
本研究提出了一种新型的视频分类模型 ——UniFormer,它集成了 3D 卷积和自注意力机制的优点,通过浅层和深层分别学习本地和全局特征,从而在计算量和准确性之间取得了理想的平衡,经实验证明该模型的泛化和针对性能均优于其他方法。
Jan, 2022
通过将 Mamba 的高效远程依赖建模与 U-Net 相结合,我们提出了一种新颖的方法 SUM(Saliency Unification through Mamba),为不同类型的图像提供统一的模型,并通过全面的评估显示 SUM 能够适应不同的视觉特征并始终优于现有模型,从而使 SUM 成为推动视觉注意力建模的多功能且强大的工具。
Jun, 2024
本研究提出了一种基于扩散架构的音视频显著性预测方法(DiffSal),使用音频和视频作为条件,通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题,并在六个具有挑战性的音视频基准任务中取得了优秀的性能。
Mar, 2024