行动分割需要多少时间长期上下文？

ICCVAug, 2023

How Much Temporal Long-Term Context is Needed for Action Segmentation?

Emad Bahrami, Gianpiero Francesca, Juergen Gall

TL;DR通过引入基于 Transformer 的模型来利用稀疏注意力捕捉视频的全部上下文，本研究比较了当前三个时序动作分割数据集（即 50Salads、Breakfast 和 Assembly101）上的最新模型，在实验中证明了对于时序动作分割，建模视频的全部上下文是必要的以获得最佳性能。

Abstract

modeling long-term context in videos is crucial for many fine-grained tasks including temporal action segmentation. An interesting questio

发现论文，激发创造

本文主要介绍了基于 transformers 模型的深度学习方法，用于模拟时间上的变化进行动作识别的研究进展和应用挑战。

Dec, 2022

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

本文提出了一种灵活的多粒度时间聚合框架，用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测，并在 Breakfast，50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果，且兼容于视频分割和动作识别。

Jun, 2020

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016

介绍了一种新的 Temporal Convolutional Networks 模型，可用于对视频中动作的细粒度分割和检测，具有高效性和良好的表现。

Nov, 2016

通过使用长时序卷积神经网络和高质量的光流估计，该研究获得了 UCF101 和 HMDB51 数据集上最先进的人类动作识别结果，具备良好的行为表示和准确性。

Apr, 2016

提出了一种统一的时间卷积网络方法，可以逐层捕捉低、中、高层次时间尺度上的关系，在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能，并且可以在较短时间内训练完成。

Aug, 2016

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

我们提出了一种高效的 BI-level Temporal modeling (BIT) 框架，用于监督行动分割任务，通过学习明确的行动标记来表示行动段，在帧级和行动级上进行时间建模，同时保持较低的计算成本，提高了现有基于 transformer 的方法在行动分割方面的准确性和计算效率。

Aug, 2023

本文提出了一种叫做 “长短时对比学习（LSTCL）” 的学习程序，可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时，学习一个有效的剪辑级表示，并在多项视频基准测试上取得了有竞争力的表现，成为有监督基于图像的预训练的有力替代方案。

Jun, 2021