从识别到预测：利用序列推理进行动作预判

Aug, 2024

从识别到预测：利用序列推理进行动作预判

From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation

Xin Liu, Chao Hao, Zitong Yu, Huanjing Yue, Jingyu Yang

TL;DR本研究解决了动作预判任务中有效建模不同动作之间统计关系的不足。提出了一种新的端到端视频建模架构ARR，通过将任务分解为动作识别和序列推理来学习这些关系，并采用无监督预训练方法提升网络的推理能力。实验结果证明了该方法在多个数据集上的有效性，具有良好的应用前景。

Abstract

The Action Anticipation task refers to predicting what action will happen based on observed videos, which requires the model to have a strong ability to summarize the present and then reason about the future. Experience and common sense suggest that there is a significant correlation b

发现论文，激发创造

促进LSTMs早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段LSTM网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了22.0％（JHMDB-21），14.0％（UT-Interaction），和49.9％（UCF-101）的准确率。

Mar, 2017

RED: 强化编码器-解码器网络用于动作预测

我们提出了一种强化编解码（RED）网络用于动作预测，RED以多个历史表示为输入，并学习预测未来表示的序列，通过采用强化模块，鼓励系统尽早进行正确预测，并在TVSeries，THUMOS-14和TV-Human-Interaction数据集上取得了最先进的性能。

Jul, 2017

视频中的预测与下一个动作预测：基于端到端的具有记忆的模型

提出一种基于记忆的端到端网络进行行为预测与预测，表明使用动态内存训练历史可以显着提高预测性能。

Jan, 2019

众智之慧：时间渐进的注意力用于早期动作预测

在此研究中，我们提出了基于瓶颈的注意力模型(Temporal Progressive)来捕捉动作的演变，通过逐步从精细到粗糙的尺度进行渐进采样。我们的实验表明，该模型可以在四个视频数据集上实现早期动作预测的最先进性能。

Apr, 2022

未来的 Transformer 用于长期行动预测

提出了一种全新的基于注意力机制的动作预测模型，称为Future Transformer(FUTR)，它能够学习全局的视频动作信息，以预测长达数分钟的未来动作序列，和传统的自回归模型相比，FUTR可以更准确、更快速地进行长期预测。在两个标准数据集Breakfast和50Salads上进行了实验，FUTR模型取得了最新的最优结果。

May, 2022

通过对抽象目标的建模预测下一步行动

使用可变循环网络，结合视觉表示来提取目标信息，设计了一种抽象目标，用于减少人类行为预测中的不确定性，实验结果在多个数据集上达到了最新的最佳表现。

Sep, 2022

重新思考长期行动预测的学习方法

ANTICIPATR模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

无损的预期行动：使用大型视频语言模型进行可实现动作预测

通过引入PlausiVL，我们开发了一个大规模视频语言模型，提供了在现实世界中可能发生的行动序列的能力，并引入了两个客观函数，即基于反事实的可行动作序列学习损失和长时程行动重复损失，用以探讨行动序列的可行性。我们通过利用时态逻辑约束和动词-名词动作对逻辑约束来创建不可信/反事实行动序列，并使用这些序列以合理动作序列学习损失训练模型，以便模型区分可行和不可行的行动序列，并学习隐含的针对行动预测任务的时间暗示。长时程行动重复损失对于在更长的时间窗口内容易重复的动作施加更高的惩罚，增强模型生成多样且可行的行动序列能力。我们在两个大规模数据集（Ego4D和EPIC-Kitchens-100）上评估了我们的方法，并在行动预测任务中取得了显著改善。

May, 2024

用语义引导的表示学习实现行动预测

预测未来活动的任务暴露于固有的未来不确定性和对相互关联动作推理的困难，我们提出了一种能够感知语义互连性的行动表示学习框架（S-GEAR），通过学习视觉行动原型并利用语言模型制定其关系，从而进行语义化。通过在四个行动预测基准上的测试，我们证明了S-GEAR相比以前的方法获得了更好的结果，并且有效地将语言到视觉原型之间的几何关联性进行了传递，同时展示了行动语义互连性的复杂影响，开辟了预测任务的新研究领域。

Jul, 2024