CaRDiff：基于扩散的显著性预测视频显著目标排序思维链推理

Aug, 2024

CaRDiff：基于扩散的显著性预测视频显著目标排序思维链推理

CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion

Yunlong Tang, Gen Zhan, Li Yang, Yiting Liao, Chenliang Xu

TL;DR本文解决了现有视频显著性预测方法没有充分利用语言推理过程的局限性。提出的CaRDiff框架通过结合多模态大语言模型和扩散模型，创新性地引入了VSOR-CoT方法，有效提高了对视频内容的显著性判断。研究结果显示，CaRDiff在MVS数据集上的表现优于现有的先进模型，并在DHF1k数据集上表现出跨数据集的强大能力。

Abstract

Video Saliency Prediction aims to identify the regions in a video that attract human attention and gaze, driven by bottom-up features from the video and top-down processes like memory and cognition. Among these top-down influences, language plays a crucial role in guiding attention by

发现论文，激发创造

自然视频显著性预测的深度学习

通过使用新的深度学习技术，本文旨在检测自然视频中的显著区域。首先预测视频帧中的显著补丁，然后基于它们构建预测的视觉注视地图。我们展示了通过更改优化网络参数的数据选择方式，可以将计算成本节约多达12倍。将RGB值的深度学习方法扩展到具有特定性的视频以利用人类视觉系统对残留运动的敏感性。在两个公开可用数据集上进行实验，并展示了较高的准确度和AUC度量。

Apr, 2016

基于全卷积网络的视频显著对象检测

本文提出了一个深度学习模型，通过数据增强技术和动态显著性模型来高效地检测视频中的显著区域，该模型在DAVIS和FBMS数据集上达到了最新的性能标准。

Feb, 2017

利用基于目标运动的CNN和双层卷积LSTM预测视频显著性

本文介绍了一种基于DNN预测视觉显著性的方法，提出了一种基于对象到动作CNN的空时特征学习，实现了视频帧内显著性预测和跨帧显著性转移的2C-LSTM网络，并表明该方法在视频显著性预测方面领先于其他方法。

Sep, 2017

重访视频显著性: 一个大规模基准和一个新模型

该研究提出了一种基于注意力机制增强的CNN-LSTM网络架构，可用于动态视频场景下显著性学习，在DHF1K数据集上取得了优于其他竞争者的性能表现。

Jan, 2018

深度视觉显著性模型的理解与可视化

通过分析深度显著性模型中间层个体神经元学习的特征表示，研究表明：一些视觉区域已经预先编码在对象识别的网络的各个层中，预先训练模型fine-tuning以进行显著性预测会使它们偏爱某些类别，在自然图像上，深层显著性模型胜于传统模型，但在人造刺激上表现反其道而行之。

Mar, 2019

统一图像和视频显著性建模

本文提出了一种称为UNISAL的简单轻量的编码器-RNN-解码器风格网络，以同时对图像和视频显著性数据进行训练，并使用四种新颖的域自适应技术 -域自适应先验，域自适应融合，域自适应平滑和旁路-RNN处理域偏移问题，在DHF1K、Hollywood-2和UCF-Sports等视频数据集以及SALICON和MIT300等图像数据集上取得了最先进的性能

Mar, 2020

使用图推理进行实例级别的相对显著性排名

本文提出了一种新颖的统一模型来同时分割显著实例并推断它们的相对显著性顺序，该模型首次使用改进的Mask R-CNN进行显著实例分割，然后添加显著性排名分支来推断相对显著性。对于相对显著性排名，我们构建了一个新的图形推理模块，通过将四个图形结合起来以分别引入实例间相互关系、局部对比度、全局对比度和高层语义先验。该文的实验结果表明，我们提出的模型比以前的方法更加有效。

Jul, 2021

双向物体-背景优先级学习用于显著性排名

该论文提出了一种新颖的双向方法，将空间注意力和基于对象的注意力相结合，通过模拟所关注区域和对象之间的相互作用和因果关系来实现显著性排序

Mar, 2022

面向高效视频识别的时间显著性查询网络

提出一种新的时序显著性查询机制，引入类别特定信息为显著性测量提供精细线索，并在TSQNet中实现了两种检索机制和跨模态交互，从而解决现有技术对类别的不确定性和上下文缺失等问题，并在ActivityNet，FCVID和Mini-Kinetics数据集上获得了最好的成果。

Jul, 2022

UniST: 达到统一化的显著性转换器用于视频显著性预测与检测

我们介绍了统一显著性转换（UniST）框架，通过综合利用视频显著性预测和视频显著物体检测的关键特性，提取帧序列的表示并设计一个考虑显著性的变换器，在逐渐增加的分辨率上学习时空表示，同时结合跨尺度显著性信息生成鲁棒的表示。根据可信的实验证明，所提出的UniST在两个任务的七个具有挑战性的基准测试中表现优越，并且明显优于其他最先进的方法。

Sep, 2023