Jan, 2024

基于大型语言模型的视频异常检测与解释

TL;DR本文介绍了一种基于视频的大型语言模型在视频异常检测中的应用,该方法不需要阈值,并能解释检测到的异常事件。通过引入长期上下文网络模块和三阶段训练方法,提高了模型的性能并降低了数据需求和标注成本,该方法在UCF-Crime和TAD基准测试中实现了优异的性能。