- 任意模式的显著目标检测
为了达到理想的显著性预测,我们提出了一种新的显著目标检测任务,被称为任意模态显著目标检测(AM SOD)。我们设计了一个调制切换网络(MSN),包括调制切换特征提取器(MSFE)和动态融合模块(DFM),用于有效地从不同模态提取鉴别特征,并 - 基于选择性注意力调控的持续学习
本文介绍了一种生物可行的选择性注意力驱动的调制方法,用于增强连续学习环境中的分类模型;通过使用辅助显著性预测特征作为调制信号来驱动和稳定学习非独立同分布分类任务序列,并证实该方法可以有效地提高当下最先进的连续学习方法的性能(在某些情况下高达 - DiffGaze: 360 度图像上连续注视序列生成的扩散模型
DiffGaze 是一种基于条件评分的去噪扩散模型,用于在 360 度图像上生成逼真而多样化的连续人类注视序列。该方法在生成人类注视时考虑了时间和空间相关性,并在注视序列的生成、扫描路径预测和显著性预测任务上表现出优于现有方法的性能。
- 基于人眼注视的用户嵌入学习个性化显著性预测
利用少量用户特定的眼动跟踪数据从自然图像和相应的显著性图中提取用户嵌入,创造了一个能够对个体用户细化通用显著性图的新方法。通过对不同用户的图像和个人显著性图对比,使用一个 Siamese 卷积神经编码器学习用户嵌入。在两个公开显著性数据集上 - 来自注视的学习醒目度
基于变压器模型的 Saliency TRansformer 方法通过利用变压器中的并行解码,仅从注视地图中学习显著性,并将显著性预测视为一种直接的集合预测问题,通过一种全局损失来预测唯一的注视点,并在 Salicon 和 MIT300 基准 - 深度显著性模型对视觉注意力的学习
通过分解隐含特征为可解释的基底,提出了一种新的分析框架,用于研究深度显著性模型成功背后的隐含特征、显著性预测的原理以及其对不同应用场景中的视觉注意力的影响。
- 球形视觉 Transformer 用于 360 度视频显著性预测
提出了一个基于视觉转换器的新型全景视频模型 SalViT360,利用切线图像表示,在球面几何感知的时空自注意机制方面提出了一种有效的全景视频理解方法,并引入了一种基于一致性的无监督正则化项以减少 360 度密集预测模型中逆投影之后出现的伪影 - IJCAIGASP:门控注意力用于显著性预测
本研究提出了一种神经模型,旨在整合社交线索并权衡它们的影响,通过探索不同的融合技术,引入两个子网络以将注意力引导到相关的刺激物上,结果表明动态显著性预测不考虑社交线索的准确性有所提高。
- ICCV双重本地图学习和相互引导的光场显著性检测
本文提出了一种基于图网络的局部连接模型,来有效地融合光场数据中的特征并指导焦散堆叠融合过程,同时通过相互的引导方案实现全部焦点和焦散堆叠的特征增强,最终得出比现有方法更优的显着性预测结果。
- ECCV学习预测显著面孔:一种新的视听显著性模型
本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库,研究声音对多人面部视频视觉线索的影响,并提出了一种新的多模式视频显着性模型,包括三种分支:视觉,音频和面部,实验结果表明该方法胜过 11 种现有的显着性预测方法。
- ECCV基于 $n$ 参考的显著性预测迁移学习
提出了一种少样本迁移学习的范式来预测缺乏足够数据的新域中的显著性映射,在来自现有大规模数据集的知识迁移方面实现高效率,并且该框架在不同数据集对之间实现了显著性能的提升。
- CVPR瞄准正确的物品:自动驾驶的引导性语义凝视
该论文提出了一种基于场景语义和注视信息相结合的自动驾驶注意力预测方法 SAGE,并通过修改自动驾驶的关键预测参数,设计了一个完整的预测框架 SAGE-Net,实验证明 SAGE 在不增加计算量的情况下,可以优于现有技术 87.5% 的案例。
- 视频显著性预测的简单与复杂时间循环
本文探讨了利用两种类型的循环神经网络来改进现有的神经网络架构,以进行静态显著性预测。第一种修改是在架构内添加 ConvLSTM,而第二种修改是卷积状态的指数移动平均。实验结果在 SALICON 数据集上进行了权重预训练,并在 DHF1K 上 - 图像变换如何影响视线?数据集与模型
本研究创建了一个新的注视数据集并分析了经过不同变换的图像与原始图像观察者的注视行为,发现有效的数据增强变换可以帮助训练深度显著性模型,此外,利用基于生成对抗网络的新型显著性模型可以更稳健地预测图片的显著性。
- CVPR360° 视频弱监督显著性预测的 Cube Padding 技术
本研究提出了一种基于空间 - 时间卷积神经网络(CNN)和立方体填充技术(Cube Padding)的 360 度全景视频显著性预测方法,以替代现有方法中常用的二维图像处理方式,取得了比基线方法更好的速度和质量表现。
- EML-NET:可扩展的多层网络用于显著性预测
本研究提出了一种可扩展的 EML-NET 多层网络系统,利用多种强有力的深度 CNN 模型更好地提取视觉特征进行显著性预测,从而取得了公共显著性基准测试(SALICON、MIT300 和 CAT2000)的最新成果。
- 利用密集网络和 Fisher 剪枝加速凝视预测
通过 Fisher pruning 方法和知识蒸馏的结合,我们获得了更高效的视觉显著性预测体系结构,为单幅图像凝视预测的加速在现实世界应用和视频显著性模型开发中具有重要意义。
- SalNet360:使用 CNN 生成全向图像的显著性图
本文提出了一种对卷积神经网络进行扩展的架构,以使其能够有效地预测全向图像(ODI)中的视觉关注数据,从而为内容创建者提供帮助。研究人员通过展示每一步都可以使所生成的显着性地图与基础真实数据更加准确来证明这一算法的可行性。
- 使用视觉显著性和深度学习进行面部表情识别
我们开发了一个卷积神经网络来识别人类面部表情。我们将已有的卷积神经网络模型 fine-tune 到 CFEE 和 RaFD 数据集,测试准确率分别为 74.79% 和 95.71%。通过在一个数据集上训练模型,在另一个数据集上测试可以牵扯到 - ICCV训练深度网络实现空间敏感性
本文提出了一种可微分而高效的算法来逼近加权 F - 测量度量函数,通过引入空间信息,不牺牲准确性的情况下可以使用比现有方法更简单的模型,加快推断速度并减轻前 / 后处理的需要,对于许多任务可以比传统指标的先进状态匹配(或提高)性能,且在加权