Oct, 2022

利用视频级事件语义一致性实现音视频事件定位

TL;DR本文提出了一种新颖的视频级语义一致性引导网络,包括事件语义一致性建模模块和两个组件,交叉模态事件表示提取器和内部模态语义一致性增强器,同时增加负样本对过滤损失和平滑损失来进一步提高方法的有效性,以在 AVE 数据集上优于当前最先进的方法,在全面和弱监督设置下均表现出色。