基于强化学习的混合视觉变换器用于视频暴力识别

Oct, 2023

基于强化学习的混合视觉变换器用于视频暴力识别

Reinforcement Learning-based Mixture of Vision Transformers for Video Violence Recognition

Hamid Mohammadi, Ehsan Nazerfard, Tahereh Firoozi

TL;DR基于深度学习的视频暴力识别研究了准确且可扩展的人类暴力识别问题。本文提出了一种基于 Transformer 的新型专家混合 (MoE) 视频暴力识别系统，通过智能组合大型视觉 Transformer 和高效 Transformer 结构，系统不仅充分利用了视觉 Transformer 架构，还降低了使用大型视觉 Transformer 的成本。通过强化学习路由器，该架构最大化了暴力识别系统的准确性，并积极降低了计算成本。实证结果显示，在 RWF 数据集上，所提出的 MoE 架构相较于基于 CNN 的模型具有卓越的 92.4% 准确率。

Abstract

video violence recognition based on deep learning concerns accurate yet scalable human violence recognition. Currently, most state-of-the-art video violence recognition studies use →

video violence recognition deep learning transformer-based moe cnn-based models accuracy

发现论文，激发创造

视频视觉 Transformer 用于暴力检测

利用端到端深度学习技术和数据增强策略，提出一种暴力事件自动检测解决方案，相较于先前最好的方法，在一些具有挑战性的基准数据集中取得了良好的性能，可用于帮助执法部门及时采取行动。

Sep, 2022

MoE-FFD: 面向广义和参数高效的人脸伪造检测的专家混合

该研究提出了一种基于变形器的面部伪造检测方法，利用变形器的表达能力和卷积神经网络的本地先验，同时提取全局和局部的伪造线索，从而实现了一种参数高效的训练方案。在实验证明该方法具有减少参数开销且达到了最先进的面部伪造检测性能。

Apr, 2024

卷积视觉转换器用于深度伪造视频检测

本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法，并在 DeepFake Detection Challenge Dataset 上进行了实验，取得了 91.5％的准确度、0.91 的 AUC 值和 0.32 的损失值。

Feb, 2021

使用专家混合模型进行视频关系检测

利用混合专家方法的 MoE-VRD 在视觉关系检测中展示了较优的性能，通过条件计算和可伸缩性能显著增强了神经网络容量。

Mar, 2024

将 EfficientNet 和 Vision Transformers 相结合用于视频深度伪造检测

本文旨在解决视频深度伪造检测的问题，特别注重于面部深度伪造，他们利用效率较高的特征提取器与各种 Vision Transformer 结合进行实验，得出的最佳模型 AUC 为 0.951，F1 得分为 88.0％.

Jul, 2021

使用掩码学习的 Transformer 情感识别

通过使用 Vision Transformer 和 Transformer 模型，该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测，提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解，并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用，增强了情绪和行为分析在实际场景中的准确性和适用性，预计对情感计算和深度学习方法的发展有所助益。

Mar, 2024

视频行为识别模型的大规模稳健性分析

本文对现有的视频动作识别模型进行大规模的复杂性分析，提供了不同的基准数据集，并研究了现有模型对 90 种不同扰动的鲁棒性，结果表明，基于 Transformer 的模型相对于基于 CNN 的模型更具鲁棒性。

Jul, 2022

多尺度瓶颈变形器用于弱监督的多模态暴力检测

通过利用多种多样性的模态，如 RGB，光流和音频，以及仅具备视频级别注释的多模态暴力检测模型的学习，我们提出了一种新的弱监督多模态暴力检测方法，明确解决了信息冗余，模态不平衡和模态异步性等三个关键挑战，进一步提出了一种时间一致性对比损失来语义对齐成对融合特征。在最大规模的 XD-Violence 数据集上的实验表明，提出的方法实现了最先进的性能。

May, 2024

基于 Transformer 模型的单目视觉里程计：一种视频理解方法

利用基于自注意力机制的 TSformer-VO 模型，将单目视觉里程计作为视频理解任务，从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿，取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。

May, 2023

面向 EPIC-KITCHENS-100 动作识别的视频视觉 Transformer 训练

本文介绍了一种训练更强大的视频视觉变换器的经验结果，使用了诸如增强、分辨率和初始化等技术，并在 EPIC-KITCHENS-100 数据集上进行了探索，单个 ViViT 模型在验证集上取得了 47.4% 的性能，超过原始文献报告的 3.4%。

Jun, 2021