SUSiNet: 看见、理解和总结
通过将 Mamba 的高效远程依赖建模与 U-Net 相结合,我们提出了一种新颖的方法 SUM(Saliency Unification through Mamba),为不同类型的图像提供统一的模型,并通过全面的评估显示 SUM 能够适应不同的视觉特征并始终优于现有模型,从而使 SUM 成为推动视觉注意力建模的多功能且强大的工具。
Jun, 2024
文章提出通过统一的多任务学习框架,使用单个网络解决 WSSS 和 SD 任务,该框架由一个分割网络和一个显著性聚合模块组成,在图像级别和类别无关像素级显著性标签下,端到端训练并在 PASCAL VOC 2012 数据集和四个显著性基准数据集上得到了较好的性能表现。
Sep, 2019
我们介绍了统一显著性转换(UniST)框架,通过综合利用视频显著性预测和视频显著物体检测的关键特性,提取帧序列的表示并设计一个考虑显著性的变换器,在逐渐增加的分辨率上学习时空表示,同时结合跨尺度显著性信息生成鲁棒的表示。根据可信的实验证明,所提出的 UniST 在两个任务的七个具有挑战性的基准测试中表现优越,并且明显优于其他最先进的方法。
Sep, 2023
通过提取视觉显著性信息,利用基于加权融合的视频摘要方法改进人脸防伪识别模型的性能和效率,以面向数据的方式提供一种有效的训练集,通过 CNN-RNN 架构在五个具有挑战性的人脸防伪数据集上取得了最先进的表现。
Aug, 2023
提出了一种名为 COSNet 的新型网络,用于表示全局视角下的无监督视频对象分割任务,其中利用全局注意机制结合视频帧之间的相关性,训练效果超越当前的深度学习方法。
Jan, 2020
该研究提出了一个综合的系统,用于 360 度视频的时空摘要。该系统通过检测显著事件并将其摘要成简洁的摘要来生成视频摘要。研究使用了最先进的 360 度视频显著性检测和视频摘要方法,并包含了一种根据录制过程中使用的静态或移动摄像机分类 360 度视频并决定使用哪种显著性检测方法的机制,以及一个负责在 360 度视频中创建包含显著事件的传统 2D 视频的二维视频生成组件。通过使用两个 360 度视频显著性检测数据集(VR-EyeTracking、Sports-360)对系统进行定量评估,证明了开发的决策机制的准确性和良好影响,并验证了使用两种不同方法检测显著事件的选择。对这些数据集内容进行定性分析,可以进一步了解决策机制的功能,展示所使用的每种显著性检测方法的优缺点,并展示经过训练的摘要方法对比传统方法的高级性能。
Dec, 2023
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
May, 2021
本文介绍了基于数据驱动方法的卷积神经网络用于预测图像中显著性区域,并使用损失函数衡量预测结果的欧几里得距离和真实值的差距来进行学习和训练,该网络在 LSUN 2015 挑战赛中表现优秀,是一种快速准确的预测显著性区域的方法。
Jul, 2015
本研究旨在通过多任务学习方式训练一个网络实现视觉注意力,使用半监督学习方式生成前 / 背景分割标签,进而训练目标检测模型,利用分割地图实现自我注意机制,获得在交通监控领域两个数据集上显著的 mAP 改进,UA-DETRAC 和 UAVDT 数据集上均实现了最先进的结果。
Feb, 2020