Jun, 2021

面向EPIC-KITCHENS-100动作识别的视频视觉Transformer训练

TL;DR本文介绍了一种训练更强大的视频视觉变换器的经验结果,使用了诸如增强、分辨率和初始化等技术,并在EPIC-KITCHENS-100数据集上进行了探索,单个ViViT模型在验证集上取得了47.4%的性能,超过原始文献报告的3.4%。