Nov, 2023

多实体视频 Transformer 用于细粒度视频表示学习

TL;DR通过重新审视变形器结构来改进视频表示学习领域的状态,利用多实体视频变换器架构及自我监督方法实现了在多个细粒度视频基准上的最先进结果。