Jan, 2024

分层增强和蒸馏的类别增量音视频识别

TL;DR音视频识别通过整合音频和视觉线索来准确分类视频。本文旨在解决传统方法在面对真实世界中的新类别时无法保留历史类别知识的问题,提出了一种 Hierarchical Augmentation and Distillation(HAD)方法,通过分层增强以及分层蒸馏模块来高效利用数据和模型的分层结构,以捕捉和保持数据和模型的分层知识,实现更好地保护历史类别知识和提升性能。