SUSiNet: 看见、理解和总结

CVPRDec, 2018

SUSiNet: See, Understand and Summarize it

Petros Koutras, Petros Maragos

TL;DR该研究提出了一种多任务时空网络 ——SUSiNet，可以共同解决显著性估计、动作识别和视频摘要的时空问题。该方法使用一个联合端到端训练的单个网络，使用与探索任务相关的多个数据集。该网络使用统一的体系结构，包括全局和任务特定层，并通过使用相同的视频输入产生多种输出类型。此外，该网络可以通过与人类注意力相关的注意力模块进行深度监督。研究结果表明，该多任务网络的性能与单个任务方法一样好（在某些情况下更好），而且所需的计算预算比每个任务单独使用的网络要少。

Abstract

In this work we propose a multi-task spatio-temporal network, called SUSiNet, that can jointly tackle the spatio-temporal problems of saliency estimation, action recognition and →

saliency estimation action recognition video summarization multi-task network attention module

发现论文，激发创造

SUM: 基于瞳蛇的视觉注意力建模中的显著性统一

通过将 Mamba 的高效远程依赖建模与 U-Net 相结合，我们提出了一种新颖的方法 SUM（Saliency Unification through Mamba），为不同类型的图像提供统一的模型，并通过全面的评估显示 SUM 能够适应不同的视觉特征并始终优于现有模型，从而使 SUM 成为推动视觉注意力建模的多功能且强大的工具。

Jun, 2024

显著性检测和弱监督语义分割的联合学习

文章提出通过统一的多任务学习框架，使用单个网络解决 WSSS 和 SD 任务，该框架由一个分割网络和一个显著性聚合模块组成，在图像级别和类别无关像素级显著性标签下，端到端训练并在 PASCAL VOC 2012 数据集和四个显著性基准数据集上得到了较好的性能表现。

Sep, 2019

UniST: 达到统一化的显著性转换器用于视频显著性预测与检测

我们介绍了统一显著性转换（UniST）框架，通过综合利用视频显著性预测和视频显著物体检测的关键特性，提取帧序列的表示并设计一个考虑显著性的变换器，在逐渐增加的分辨率上学习时空表示，同时结合跨尺度显著性信息生成鲁棒的表示。根据可信的实验证明，所提出的 UniST 在两个任务的七个具有挑战性的基准测试中表现优越，并且明显优于其他最先进的方法。

Sep, 2023

基于显著性的人脸反欺诈视频摘要

通过提取视觉显著性信息，利用基于加权融合的视频摘要方法改进人脸防伪识别模型的性能和效率，以面向数据的方式提供一种有效的训练集，通过 CNN-RNN 架构在五个具有挑战性的人脸防伪数据集上取得了最先进的表现。

Aug, 2023

基于注意力机制的视频摘要

提出了一种新的监督学习方法，基于关键帧技术和自注意力机制来实现视频摘要。该方法在两个公认的基准数据集 TvSum 和 SumMe 上取得了新的最佳结果。

Dec, 2018

看得更多，知道得更多：利用联合注意力孪生网络进行无监督视频对象分割

提出了一种名为 COSNet 的新型网络，用于表示全局视角下的无监督视频对象分割任务，其中利用全局注意机制结合视频帧之间的相关性，训练效果超越当前的深度学习方法。

Jan, 2020

360 度视频的时空摘要集成系统

该研究提出了一个综合的系统，用于 360 度视频的时空摘要。该系统通过检测显著事件并将其摘要成简洁的摘要来生成视频摘要。研究使用了最先进的 360 度视频显著性检测和视频摘要方法，并包含了一种根据录制过程中使用的静态或移动摄像机分类 360 度视频并决定使用哪种显著性检测方法的机制，以及一个负责在 360 度视频中创建包含显著事件的传统 2D 视频的二维视频生成组件。通过使用两个 360 度视频显著性检测数据集（VR-EyeTracking、Sports-360）对系统进行定量评估，证明了开发的决策机制的准确性和良好影响，并验证了使用两种不同方法检测显著事件的选择。对这些数据集内容进行定性分析，可以进一步了解决策机制的功能，展示所使用的每种显著性检测方法的优缺点，并展示经过训练的摘要方法对比传统方法的高级性能。

Dec, 2023

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

端到端卷积网络用于显著性预测

本文介绍了基于数据驱动方法的卷积神经网络用于预测图像中显著性区域，并使用损失函数衡量预测结果的欧几里得距离和真实值的差距来进行学习和训练，该网络在 LSUN 2015 挑战赛中表现优秀，是一种快速准确的预测显著性区域的方法。

Jul, 2015

SpotNet: 自注意力多任务网络用于目标检测

本研究旨在通过多任务学习方式训练一个网络实现视觉注意力，使用半监督学习方式生成前 / 背景分割标签，进而训练目标检测模型，利用分割地图实现自我注意机制，获得在交通监控领域两个数据集上显著的 mAP 改进，UA-DETRAC 和 UAVDT 数据集上均实现了最先进的结果。

Feb, 2020