不仅仅看，还要听：弱监督下学习多模态暴力检测

ECCVJul, 2020

不仅仅看，还要听：弱监督下学习多模态暴力检测

Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao...

TL;DR本文提出了一种基于多模态的神经网络的暴力检测方法，通过发布了一个大规模多场景的数据集 XD-Violence，证明了该方法在判断暴力视频方面的优越性，并通过实验证明了多模态（包括视听）输入和建模关系的积极影响。

Abstract

violence detection has been studied in computer vision for years. However, previous work are either superficial, e.g., classification of short-clips, and the single scenario, or undersupplied, e.g., the single modality, and hand-crafted features based →

violence detection multi-scene dataset neural network audio-visual input multimodality

发现论文，激发创造

多尺度瓶颈变形器用于弱监督的多模态暴力检测

通过利用多种多样性的模态，如 RGB，光流和音频，以及仅具备视频级别注释的多模态暴力检测模型的学习，我们提出了一种新的弱监督多模态暴力检测方法，明确解决了信息冗余，模态不平衡和模态异步性等三个关键挑战，进一步提出了一种时间一致性对比损失来语义对齐成对融合特征。在最大规模的 XD-Violence 数据集上的实验表明，提出的方法实现了最先进的性能。

May, 2024

基于模态感知的对比实例学习与自监督蒸馏用于弱监督的音视频暴力检测

本文提出一种基于弱监督学习的音视频暴力检测方法，通过模态感知对比学习与自我蒸馏策略，有效地提高了音视频一致性，克服了多通道学习中的异质性问题，并在大规模 XD-Violence 数据集上达到更优的检测性能。

Jul, 2022

在双曲空间中学习弱监督的音视频暴力检测

本文提出了一种基于超几何空间的弱监督音视频暴力检测框架 HyperVD，通过多模态融合和全超几何图卷积网络等方法来提高模型的判别能力，收益于在此空间中学习片段表示方法，最终在 XD-Violence 基准测试中超越同领域最优性能的方法。

May, 2023

观看、听取与叙述：多模态弱监督密集事件字幕生成

本文研究了多模态学习中的音频 - 视觉相关性，并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题，通过实验证明了提出的多模态方法优于单模态方法，同时验证了特定功能表示和体系结构设计的选择。

Sep, 2019

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017

多模式出版物中仇恨言论检测的探讨

本文研究针对文本和图像组成的多模态出版物中仇恨言论的检测问题。我们从 Twitter 收集和注释了大规模数据集 MMHS150K，并提出了不同的联合文本和视觉信息的模型用于比较仇恨言论检测中的单一模态检测，提供了定量和定性结果并分析了所提出任务的挑战。我们发现，尽管图像对于仇恨言论检测任务很有用，但目前的多模态模型无法超越仅分析文本的模型。我们讨论了原因并开放该领域和数据集以进行进一步研究。

Oct, 2019

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020