SalFoM: 动态视频基础模型的显著性预测

Apr, 2024

SalFoM: 动态视频基础模型的显著性预测

SalFoM: Dynamic Saliency Prediction with Video Foundation Models

Morteza Moradi, Mohammad Moradi, Francesco Rundo, Concetto Spampinato, Ali Borji...

TL;DR使用视频基础模型，我们引入了 SalFoM，一种新颖的编码器 - 解码器视频 Transformer 架构，通过特征提取器 UnMasked Teacher（UMT）和包含局部感知的时空 Transformer 的异构解码器，从多个角度融合局部和全局时空信息以生成最终的显著性图，并在 DHF1K、Hollywood-2 和 UCF-Sports 这些具有挑战性的 VSP 基准数据集上进行定性和定量实验证明了我们提出的模型相对于先进方法的优越性。

Abstract

Recent advancements in video saliency prediction (vsp) have shown promising performance compared to the human visual system, whose emulation is the primary goal of →

video saliency prediction vsp video foundation models salfom encoder-decoder video transformer

发现论文，激发创造

基于 Transformer 的高时序维度解码的视频显著性预测

基于变压器的高时间维度解码网络（THTD-Net）是一种用于视频显著性预测的策略，通过对时态特征进行聚合，从而在常见基准测试中展现出与多分支和过于复杂模型相当的性能。

Jan, 2024

动态显著性预测的时空显著性网络

本研究提出了基于深度学习的时空注意力预测模型，其中采用两条流网络架构，探究了不同的信息融合机制。实验结果表明，采用运动信息可以有助于静态注意力估计，并取得了与最先进模型相竞争的结果。

Jul, 2016

视频 FocalNets：时空 Focal 调制用于视频动作识别

本文提出了基于方向聚焦的架构 Video-FocalNet，它是一种有效且高效的视频识别体系结构，用于同时对本地和全局上下文进行建模，相较于现今热门的视频识别模型，该识别模型在三大数据集上表现优异，具有更低的计算成本。

Jul, 2023

TVTSv2：学习开箱即用的大规模时空视觉表示

本论文分析了导致视频模型性能下降的因素 —— 语言监督失真，提出了一种去除降级的预训练策略，并采用排序任务同时使用掩蔽技术进行可扩展的训练，得到了一系列新的模型。

May, 2023

视觉显著性转换器

本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器（VST），通过建模长程依赖关系，实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明，该方法在常用数据集上表现出色，并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。

Apr, 2021

统一图像和视频显著性建模

本文提出了一种称为 UNISAL 的简单轻量的编码器 - RNN - 解码器风格网络，以同时对图像和视频显著性数据进行训练，并使用四种新颖的域自适应技术 - 域自适应先验，域自适应融合，域自适应平滑和旁路 - RNN 处理域偏移问题，在 DHF1K、Hollywood-2 和 UCF-Sports 等视频数据集以及 SALICON 和 MIT300 等图像数据集上取得了最先进的性能

Mar, 2020

基于全卷积网络的视频显著对象检测

本文提出了一个深度学习模型，通过数据增强技术和动态显著性模型来高效地检测视频中的显著区域，该模型在 DAVIS 和 FBMS 数据集上达到了最新的性能标准。

Feb, 2017

UniST: 达到统一化的显著性转换器用于视频显著性预测与检测

我们介绍了统一显著性转换（UniST）框架，通过综合利用视频显著性预测和视频显著物体检测的关键特性，提取帧序列的表示并设计一个考虑显著性的变换器，在逐渐增加的分辨率上学习时空表示，同时结合跨尺度显著性信息生成鲁棒的表示。根据可信的实验证明，所提出的 UniST 在两个任务的七个具有挑战性的基准测试中表现优越，并且明显优于其他最先进的方法。

Sep, 2023

应用 VLM 辅助训练提升视频变换器的动作理解能力

提出了一种利用 Vision Transformers（ViTs）和 Visual Language Models（VLMs）之间的互补优势的 Four-tiered Prompts（FTP）框架，通过改进视觉编码并对齐 VLM 输出，从而实现对视频中人类行为的具体方面的处理，对 Kinetics-400 和 Something-Something V2 数据集上的视频行为理解任务分别达到了 93.8% 和 83.4% 的顶级准确率，超过 VideoMAEv2 分别 2.8% 和 2.6%。

Mar, 2024

面向组群分割的统一 Transformer 框架：协同分割，共同显著性检测和视频显著对象检测

该论文提出了一个名为 UFO 的统一框架，通过引入自注意机制和内部 MLP 学习模块，结合图像的空间信息和特征相似性，实现了针对协同分割、协同显著性检测和视频显著性对象检测的多任务单一网络架构，实验结果表明，该方法在精度和速度方面均优于现有方法。

Mar, 2022