关键词audio-visual event localization
搜索结果 - 8
- UniAV:统一的音频视觉感知支持多任务视频定位
UniAV 是一种统一的视听感知网络,可以联合学习时间动作定位(TAL)、声音事件检测(SED)和视听事件定位(AVEL)任务,并通过使用预训练的文本编码器设计统一的语言感知分类器,实现对各种类型实例的灵活检测。UniAV 通过更少的参数比 - 弱监督音视频事件定位的时间标签细化
本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类,方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练,辅助任务可以更可靠地预测本地化事件标签。
- CVPR未剪辑视频中稠密定位视听事件:一个大规模基准和基线模型
本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战,提出了一个新的学习框架来解决此问题,并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。
- 利用视频级事件语义一致性实现音视频事件定位
本文提出了一种新颖的视频级语义一致性引导网络,包括事件语义一致性建模模块和两个组件,交叉模态事件表示提取器和内部模态语义一致性增强器,同时增加负样本对过滤损失和平滑损失来进一步提高方法的有效性,以在 AVE 数据集上优于当前最先进的方法,在 - AAAI分离声音和像素,再构建事件
本文提出了一个基于 Event Decomposition Recomposition Network(EDRNet)框架,解决监督和弱监督下的 Audio-Visual 事件(AVE)定位问题。 在 AVE 数据集上实验表明,所提出的集体 - 通过联合注意力的递归融合实现音视频事件定位
本研究提出了一种新的多模态融合联合注意力机制,能够有效地从视听特征中学习联合表示,并通过递归式联合协同作用持续改进,从而在音视频事件定位任务中取得了明显的成果。
- 双模态 seq2seq 网络用于音频 - 视觉事件定位
本文介绍了一种名为 AVSDN 的深度神经网络,通过联合考虑每个时间段的音频和视觉特征作为输入,以序列到序列的方式学习全局和局部事件信息,在完全监督或弱监督设置下获得了良好的结果,并在音频视觉事件定位方面优于最近的深度学习方法。
- 无约束视频中的视听事件定位
本文介绍了一个新的无约束视频中的音频视觉事件定位问题,使用 AVE 数据集进行研究,提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案,并针对跨模态定位提出跨模态距离学习网络。实验结果表明,联合建模听觉和视觉模型优于