ICCVAug, 2023
行动分割需要多少时间长期上下文?
How Much Temporal Long-Term Context is Needed for Action Segmentation?
Emad Bahrami, Gianpiero Francesca, Juergen Gall
TL;DR通过引入基于 Transformer 的模型来利用稀疏注意力捕捉视频的全部上下文,本研究比较了当前三个时序动作分割数据集(即 50Salads、Breakfast 和 Assembly101)上的最新模型,在实验中证明了对于时序动作分割,建模视频的全部上下文是必要的以获得最佳性能。