ICCVAug, 2023

行动分割需要多少时间长期上下文?

TL;DR通过引入基于 Transformer 的模型来利用稀疏注意力捕捉视频的全部上下文,本研究比较了当前三个时序动作分割数据集(即 50Salads、Breakfast 和 Assembly101)上的最新模型,在实验中证明了对于时序动作分割,建模视频的全部上下文是必要的以获得最佳性能。