Mar, 2021

一张图片抵 16x16 字,一段视频抵多少字?

TL;DR本文提出了一种使用全局注意机制的时间变换器,以更好地利用每个帧的显着信息来显著减少推理时间和数据帧,从而提高输入效率,在 Kinetics 数据集上实现了 SotA 结果。