未来的 Transformer 用于长期行动预测

CVPRMay, 2022

未来的 Transformer 用于长期行动预测

Future Transformer for Long-term Action Anticipation

Dayoung Gong, Joonseok Lee, Manjin Kim, Seong Jong Ha, Minsu Cho

TL;DR提出了一种全新的基于注意力机制的动作预测模型，称为 Future Transformer (FUTR)，它能够学习全局的视频动作信息，以预测长达数分钟的未来动作序列，和传统的自回归模型相比，FUTR 可以更准确、更快速地进行长期预测。在两个标准数据集 Breakfast 和 50Salads 上进行了实验，FUTR 模型取得了最新的最优结果。

Abstract

The task of predicting future actions from a video is crucial for a real-world agent interacting with others. When anticipating actions in the distant future, we humans typically consider long-term relations over the whole sequence of actions, i.e., not only observed actions in the past but also potential actions in the future. In a similar spirit, we propos

action anticipation end-to-end attention model future transformer autoregressive models long-term anticipation

发现论文，激发创造

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

预测性视频转换器

提出了一种名为 AVT 的模型，它是一种基于注意力机制的端到端视频建模架构，通过关注之前观察过的视频来预测未来的动作，通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比，AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性，这对于预测任务非常关键。通过广泛的实验，该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能：EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads；并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。

Jun, 2021

未来视角：利用大型预训练语言模型进行动态故事生成

本文提出了一种基于预训练生成式 transformer 网络的方法 Future Sight，以实现未来条件限制的故事生成任务，在保留自注意机制的同时，增加了对未来情节的建模，使生成内容更有逻辑性和连贯性。

Dec, 2022

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

预测未来：联合学习模型用于行动预测

本篇论文提出了一种行动预测模型，受人类神经结构的启发，在预测未来视觉和时间表现方面，能够预测合理的未来行动，并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合，该模型在多个数据集上优于当前最先进的方法。

Dec, 2019

在线行动理解的记忆与预测变换器

该论文提出了一种基于记忆和预测的方法来建模整个时间结构，包括过去、现在和未来，并通过 Memory-and-Anticipation Transformer 在在线动作检测和预测任务中取得显著的性能优势。

Aug, 2023

视频中的预测与下一个动作预测：基于端到端的具有记忆的模型

提出一种基于记忆的端到端网络进行行为预测与预测，表明使用动态内存训练历史可以显着提高预测性能。

Jan, 2019

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

AntGPT：大型语言模型能否帮助从视频中进行长期动作预测？

通过利用大型语言模型，我们提出了一种用于长期动作预测的两阶段框架 AntGPT，能够在人机交互中对未来行为进行准确预测，并且取得了最新的研究成果。

Jul, 2023

用于长距离视频理解的时间聚合表示

本文提出了一种灵活的多粒度时间聚合框架，用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测，并在 Breakfast，50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果，且兼容于视频分割和动作识别。

Jun, 2020