Oct, 2023

基于强化学习的混合视觉变换器用于视频暴力识别

TL;DR基于深度学习的视频暴力识别研究了准确且可扩展的人类暴力识别问题。本文提出了一种基于 Transformer 的新型专家混合 (MoE) 视频暴力识别系统,通过智能组合大型视觉 Transformer 和高效 Transformer 结构,系统不仅充分利用了视觉 Transformer 架构,还降低了使用大型视觉 Transformer 的成本。通过强化学习路由器,该架构最大化了暴力识别系统的准确性,并积极降低了计算成本。实证结果显示,在 RWF 数据集上,所提出的 MoE 架构相较于基于 CNN 的模型具有卓越的 92.4% 准确率。