视频视觉 Transformer 用于暴力检测

Sep, 2022

Video Vision Transformers for Violence Detection

Sanskar Singh, Shivaibhav Dewangan, Ghanta Sai Krishna, Vandit Tyagi, Sainath Reddy...

TL;DR利用端到端深度学习技术和数据增强策略，提出一种暴力事件自动检测解决方案，相较于先前最好的方法，在一些具有挑战性的基准数据集中取得了良好的性能，可用于帮助执法部门及时采取行动。

Abstract

Law enforcement and city safety are significantly impacted by detecting violent incidents in surveillance systems. Although modern (smart) cameras are widely available and affordable, such technological solutions

violent incidents surveillance systems end-to-end deep learning data augmentation strategy state-of-the-art approaches

发现论文，激发创造

关于视觉变换器用于深假检测的及时调查

近年来，深度伪造技术的快速发展在降低伪造成本和提高质量的同时引发了关于侵犯个人权利、国家安全威胁和公共安全风险等紧迫问题。本文综述了基于 Vision Transformer（ViT）的深度伪造检测模型，并将其分为独立的、顺序的和并行的架构。此外，它简明扼要地描绘了每个模型的结构和特点，通过分析现有研究和探讨未来发展方向，旨在为研究人员提供对 ViT 在深度伪造检测中关键作用的细致理解，为学术和实践领域提供有价值的参考。

May, 2024

SIViDet: 高效武器暴力检测的显著图像

为了提高智能城市安全的效率性，本研究提出了一个聚焦于武装暴力、非武装暴力和非暴力事件的新数据集，同时提出了一种基于数据的新方法用于图像分类，以提高智能城市中武器检测的性能。经过实验，该方法可高效地检测和区分带武器和不带武器的暴力事件，达到 99% 的性能。

Jul, 2022

暴力检测技术概述：当前挑战和未来方向

本篇研究概述了深度序列学习方法及其用于暴力检测的本土化策略，对初始图像处理和基于机器学习的暴力检测进行了分析，详细描述了现有模型的优缺点并提出未来方向。

Sep, 2022

基于强化学习的混合视觉变换器用于视频暴力识别

基于深度学习的视频暴力识别研究了准确且可扩展的人类暴力识别问题。本文提出了一种基于 Transformer 的新型专家混合 (MoE) 视频暴力识别系统，通过智能组合大型视觉 Transformer 和高效 Transformer 结构，系统不仅充分利用了视觉 Transformer 架构，还降低了使用大型视觉 Transformer 的成本。通过强化学习路由器，该架构最大化了暴力识别系统的准确性，并积极降低了计算成本。实证结果显示，在 RWF 数据集上，所提出的 MoE 架构相较于基于 CNN 的模型具有卓越的 92.4% 准确率。

Oct, 2023

卷积视觉转换器用于深度伪造视频检测

本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法，并在 DeepFake Detection Challenge Dataset 上进行了实验，取得了 91.5％的准确度、0.91 的 AUC 值和 0.32 的损失值。

Feb, 2021

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

CrisisViT：一种适用于危机图像分类的稳健视觉 Transformer

利用最新的深度神经模型，通过将基于 Transformer 的架构应用于危机图像分类（CrisisViT），以解决利用社交媒体的公民新闻来帮助危机响应的问题，并通过实验证明，CrisisViT 模型在紧急类型、图像相关性、人道主义类别和损害严重性分类方面明显优于以前的方法。此外，新的 Incidents1M 数据集进一步增强了 CrisisViT 模型，使其准确率提高了 1.25%。

Jan, 2024

计算机视觉中的活体检测：基于 Transformer 的自监督学习用于人脸反欺骗

本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架，对面部反欺诈任务进行了 Fine-tuning，与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示，ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型，进一步推动了生物识别安全领域的重要进展。

Jun, 2024

智慧机场中使用 ViTPose 和分类模型的两阶段暴力检测

这项研究介绍了一个创新的暴力检测框架，专为智能机场的独特需求而设计，其中对暴力情况的及时响应至关重要。该提议的框架利用 ViTPose 技术进行人体姿势估计，采用 CNN - BiLSTM 网络分析关键点序列中的空间和时间信息，实现对实时暴力行为的准确分类。该解决方案无缝集成在 SAAB 的 SAFE（增强安全情景感知框架）中，并经过综合测试，以确保在真实场景中的稳健性能。本研究利用 AIRTLab 数据集增强模型的准确性并减少误报，该数据集具有高质量的视频和与监控场景的相关性。随着机场在后疫情时代面临日益增多的人流量，实施像所提议的基于 AI 的暴力检测系统对于提高安全性，加快响应时间和促进数据驱动的决策至关重要。这一框架的实施不仅减少了暴力事件的可能性，还帮助监控团队有效应对潜在威胁，最终促进了更安全和受保护的航空业。代码可在此 URL 获得：https://this URL。

Aug, 2023

使用 Vision Transformers 进行 X 光图像中的非法物体检测

本研究通过综合评估 Vision Transformers 在 X 射线图像中的非法物品检测上的相关架构，包括 Transformer 和混合骨干，如 SWIN 和 NextViT，以及检测器，如 DINO 和 RT-DETR，结果表明 DINO Transformer 检测器在低数据情况下的显著准确性，YOLOv8 的出色实时性能以及混合的 NextViT 骨干的有效性。

Mar, 2024