Oct, 2022

多领域视频分类的迁移学习:Video Swin Transformer

TL;DR本文研究视频分类中使用 Video Swin Transformer 模型进行跨领域分类的泛化能力,使用 Kinetics-400 数据集进行迁移学习减少内存,实现 85% 的 top-1 准确率,但当对象不属于 Kinetics-400 数据集时准确率降低,为 21%。我们结论是,当目标类别与训练模型的类别相同时,VST 能够实现跨领域视频分类。