不仅仅看,还要听:弱监督下学习多模态暴力检测
通过利用多种多样性的模态,如 RGB,光流和音频,以及仅具备视频级别注释的多模态暴力检测模型的学习,我们提出了一种新的弱监督多模态暴力检测方法,明确解决了信息冗余,模态不平衡和模态异步性等三个关键挑战,进一步提出了一种时间一致性对比损失来语义对齐成对融合特征。在最大规模的 XD-Violence 数据集上的实验表明,提出的方法实现了最先进的性能。
May, 2024
本文提出一种基于弱监督学习的音视频暴力检测方法,通过模态感知对比学习与自我蒸馏策略,有效地提高了音视频一致性,克服了多通道学习中的异质性问题,并在大规模 XD-Violence 数据集上达到更优的检测性能。
Jul, 2022
本文提出了一种基于超几何空间的弱监督音视频暴力检测框架 HyperVD,通过多模态融合和全超几何图卷积网络等方法来提高模型的判别能力,收益于在此空间中学习片段表示方法,最终在 XD-Violence 基准测试中超越同领域最优性能的方法。
May, 2023
本文研究了多模态学习中的音频 - 视觉相关性,并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题,通过实验证明了提出的多模态方法优于单模态方法,同时验证了特定功能表示和体系结构设计的选择。
Sep, 2019
本文通过使用卷积神经网络改进面部描述符,并探索多种融合方法,建立并优化 CNN 架构,解决情感分类问题,获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性,达到了 58.8%。
Sep, 2017
本文研究针对文本和图像组成的多模态出版物中仇恨言论的检测问题。 我们从 Twitter 收集和注释了大规模数据集 MMHS150K,并提出了不同的联合文本和视觉信息的模型用于比较仇恨言论检测中的单一模态检测,提供了定量和定性结果并分析了所提出任务的挑战。 我们发现,尽管图像对于仇恨言论检测任务很有用,但目前的多模态模型无法超越仅分析文本的模型。 我们讨论了原因并开放该领域和数据集以进行进一步研究。
Oct, 2019
本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架,它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来,以捕捉它们之间的关系,并通过多次实验表明,该框架可以提高视频分类的准确度。
Jun, 2017
本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。
May, 2020
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
Jun, 2020