ViNet: 将视觉模态推至极限，用于音频视觉显著性预测

Dec, 2020

ViNet: 将视觉模态推至极限，用于音频视觉显著性预测

ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency Prediction

Samyak Jain, Pradeep Yarlagadda, Shreyank Jyoti, Shyamgopal Karthik, Ramanathan Subramanian...

TL;DR提出了 ViNet 架构用于音频 - 视觉显著性预测，其采用全卷积编码器 - 解码器架构，利用动作识别网络的视觉特征来编码，通过三线性插值和 3D 卷积生成显著性图，没有使用音频作为输入，但是在 9 个不同的数据集上，仍然优于现有的音频 - 视觉显著性预测模型，而且还超过人类在某些度量标准上的表现，此外，还探索了一个在解码器中将音频特征纳入架构中的变体，得出了一些有趣的结论。

Abstract

We propose the vinet architecture for audio-visual saliency prediction. vinet is a fully convolutional →

vinet audio-visual saliency prediction encoder-decoder architecture trilinear interpolation real-time

发现论文，激发创造

CASP-Net: 从音视感官一致性角度重新思考视频显著性预测

本研究提出了一种考虑视听语义交互和一致性感知的一致性感知音视频显著性预测网络（CASP-Net）以及用于改善不一致性的新颖一致性感知预测编码，使用多尺度音视频信息，生成显著性地图。该方法在六个具有挑战性的视听跟踪数据集上性能表现优于其他最先进的方法。

Mar, 2023

DAVE: 动态显著性预测的深度音视频嵌入

本文研究音频 - 视觉深度显著性预测，介绍了一种称为 “DAVE” 的动态显著性预测的概念简单而有效的深度音频 - 视觉嵌入，并与我们建立的音频 - 视觉注视数据集 “AVE” 相结合。

May, 2019

学习预测显著面孔：一种新的视听显著性模型

本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库，研究声音对多人面部视频视觉线索的影响，并提出了一种新的多模式视频显着性模型，包括三种分支：视觉，音频和面部，实验结果表明该方法胜过 11 种现有的显着性预测方法。

Mar, 2021

DiffSal: 扩散显著性预测的音频和视频联合学习

本研究提出了一种基于扩散架构的音视频显著性预测方法（DiffSal），使用音频和视频作为条件，通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题，并在六个具有挑战性的音视频基准任务中取得了优秀的性能。

Mar, 2024

用户生成视频情感识别的端到端视听注意力网络

本研究提出了一种基于卷积神经网络的深层视听关注网络（VAANet）来进行用户生成视频中的情感识别，其结果在两个不易的视频情绪识别数据集上均优于现有的方法。

Feb, 2020

一种深层多级网络用于显著性预测

本研究提出了一种新颖的深度架构用于显著性预测，通过整合卷积神经网络的不同层级的特征图、学习高低层级特征图的权重和使用先验学习网络来优化模型，使其在目前最大的公共数据集 SALICON 上表现优异且在 MIT300 基准测试中取得竞争性结果。

Sep, 2016

基于上下文编码器 - 解码器网络的视觉显著性预测

该论文提出了一种基于卷积神经网络的方法，通过提取多尺度的高级视觉特征和上下文信息，结合全局场景信息，用于准确预测视觉显著性，可以适用于资源受限的应用，如（虚拟）机器人系统，从而在多个基准测试数据集上取得了有竞争力和一致的结果。

Feb, 2019

使用视觉显著性提高卷积神经网络中的人体检测：ViS-HuD

本文提出一种基于深度学习的技术来提高静态图像中人物的检测，其中通过计算图像的视觉显著性图，对输入图像进行处理并通过基于 CNN 的人物检测方法，该方法在 Penn Fudan 数据集上达到 91.4% 的人物检测准确率，并在 TUDBrussels 基准测试中实现平均漏检率为 53%。

Feb, 2018

音视频显著性预测的双域对抗学习

本文研究了使用双领域对抗学习算法来解决音频视觉显著性预测中源域数据分布不一致与目标域数据性能降解问题，其方法包括建立与对齐声学特征分布、跨模态自注意力模块融合声学特征至视觉特征、降低视觉特征及融合后的音视频相关性中的领域差异等。实验结果说明该方法可以缓解由领域差异导致的性能下降问题。

Aug, 2022

MDS-ViTNet: 基于视觉 Transformer 改进注视预测的方法

本文介绍了一种名为 MDS-ViTNet（多解码视觉变换网络）的新方法，用于增强视觉显著性预测和眼动跟踪。该方法在多个领域具有重要潜力，包括市场营销、医学、机器人技术和零售业。我们提出了一种利用 Vision Transformer 的网络架构，超越传统的 ImageNet 骨干。该框架采用编码器 - 解码器结构，其中编码器利用 Swin 变换器有效地嵌入最重要的特征。通过转换器将 Vision Transformer 的层转换并无缝集成到 CNN 解码器中，从而实现了该过程。编码器 - 解码器方法能够最小化原始输入图像的信息损失。解码器采用多解码技术，利用双解码器生成两个不同的关注度图。通过附加的 CNN 模型将这些图合并为单一输出。我们训练的模型 MDS-ViTNet 在多个基准测试中实现了最新的结果。为了促进进一步的合作，我们计划将我们的代码、模型和数据集开放给公众使用。

May, 2024