关键词audio-visual video parsing
搜索结果 - 5
- 通过分段伪标签提升弱监督音视频解析
通过利用先前从开放世界学到的知识,我们提出了一种新的伪标签生成策略,可以将标签明确分配给每个视频片段,进一步使用新的损失函数来利用这些伪标签,并采用标签去噪策略来提升视觉伪标签。我们在 LLP 数据集上进行了广泛实验,证明了每个提议设计的有 - CM-PIE:跨模态感知的交互增强音频视觉视频解析
本文介绍了一种基于片段注意力模块的交互增强型跨模态知觉方法(CM-PIE),该方法通过学习细粒度特征和增强跨模态交互以共同优化音频和视觉信号的语义表示,提高了在 Look, Listen, and Parse 数据集上的解析性能。
- 从语言角度重新审视基于弱监督的音视频分析
本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法,优于现有同类方法。
- 跨模态学习用于视听视频解析
本文介绍了一种新的音频 - 视觉视频解析(AVVP)任务的方法,该方法将音频和视觉模态中的事件分开,在时间上同时检测这些事件的开始和结束,并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示,实验结果表明本文的 - ECCV统一的多感知知觉:弱监督的音频 - 视觉视频解析
本文介绍了音频 - 视觉视频解析的问题,并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题,以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明,即使只有视频级弱标签,也可以实现具有挑战性