Nov, 2022

PatchBlender:视频 Transformer 的动作先验

TL;DR本篇论文尝试解决计算机视觉中 transformers 架构应用在视频数据时遇到的问题,通过引入可学习的混合函数 PatchBlender,使得 transformers 成功编码视频数据的时间组成部分并提升了基础模型性能。