Aug, 2023

单一视觉变换器的图像和视频联合学习

TL;DR我们提出了一种使用单一模型联合学习图像和视频的方法,该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。