CM-PIE：跨模态感知的交互增强音频视觉视频解析

Oct, 2023

CM-PIE：跨模态感知的交互增强音频视觉视频解析

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing

Yaru Chen, Ruohao Guo, Xubo Liu, Peipei Wu, Guangyao Li...

TL;DR本文介绍了一种基于片段注意力模块的交互增强型跨模态知觉方法（CM-PIE），该方法通过学习细粒度特征和增强跨模态交互以共同优化音频和视觉信号的语义表示，提高了在 Look, Listen, and Parse 数据集上的解析性能。

Abstract

audio-visual video parsing is the task of categorizing a video at the segment level with weak labels, and predicting them as audible or visible events. Recent methods for this task leverage the attention mechanism

audio-visual video parsing attention mechanism segment-based attention cross-modal perception inter-modal interactions

发现论文，激发创造

统一的多感知知觉：弱监督的音频 - 视觉视频解析

本文介绍了音频 - 视觉视频解析的问题，并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题，以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明，即使只有视频级弱标签，也可以实现具有挑战性的音频 - 视觉视频解析。

Jul, 2020

跨模态学习用于视听视频解析

本文介绍了一种新的音频 - 视觉视频解析（AVVP）任务的方法，该方法将音频和视觉模态中的事件分开，在时间上同时检测这些事件的开始和结束，并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示，实验结果表明本文的方法在 AVVP 任务上比现有的 HAN 模型更好。

Apr, 2021

MM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析

提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络，该网络使用注意力特征金字塔模块和语义融合模块，以实现视频中事件的识别和定位。

Nov, 2021

从语言角度重新审视基于弱监督的音视频分析

本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Jun, 2023

重新思考弱监督的音频 - 视觉视频解析中的跨模态融合

通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法，本研究提出了一种新的弱监督音频 - 视觉视频解析框架，以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明，我们的框架相比现有的最先进方法，表现更加优越。

Nov, 2023

跨模态逐步理解用于区域引用的分割

本文提出了一个跨模态的渐进式理解方案，分别应用于图像和视频的参考分割中，通过使用实体，属性和关系词汇进行空间图形推理和时间图形推理来解决语言表达的主语并输出像素级掩码。

May, 2021

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

通过分段伪标签提升弱监督音视频解析

通过利用先前从开放世界学到的知识，我们提出了一种新的伪标签生成策略，可以将标签明确分配给每个视频片段，进一步使用新的损失函数来利用这些伪标签，并采用标签去噪策略来提升视觉伪标签。我们在 LLP 数据集上进行了广泛实验，证明了每个提议设计的有效性，并在所有类型的事件解析上取得了最先进的视频解析性能，且在相关的弱监督音频 - 视觉事件定位任务上验证了我们方法的优势和泛化性。

Jun, 2024

CoLeaF: 一个对比 - 协同学习框架，用于弱监督音频 - 视觉视频解析

通过使用 CoLeaF，一种新的学习框架，提高了弱监督音频 - 视觉视频解析的性能，通过在嵌入空间中优化跨模态上下文的集成，对于可听 - 可见事件，网络能够明确学习将跨模态信息结合起来，而对于不一致的事件进行过滤。

May, 2024

渐进自信遮罩注意力网络用于音频 - 视觉分割

通过引入渐进自信掩蔽注意力网络（PMCANet），利用注意机制揭示音频信号和视觉帧之间的内在相关性，并设计了高效且有效的跨注意模块来通过选择查询标记增强语义感知。实验证明，我们的网络在需要更少的计算资源的情况下比其他 AVS 方法表现更好。

Jun, 2024