何时做什么？- 预测活动的时间发生

CVPRApr, 2018

何时做什么？- 预测活动的时间发生

When will you do what? - Anticipating Temporal Occurrences of Activities

Yazan Abu Farha, Alexander Richard, Juergen Gall

TL;DR提出了两种方法来进行视频动作的长期预测。使用卷积神经网络和循环神经网络进行学习，能够生成准确的未来预测甚至在包含大量不同动作的长视频中也可以处理噪音或错误的输入信息。

Abstract

Analyzing human actions in videos has gained increased attention recently. While most works focus on classifying and labeling observed video frames or anticipating the very recent future, making long-term predictions over more than just a few seconds is a task with many practical applications that has not yet been addressed. In this paper, we propose two met

video analysis long-term prediction cnn rnn action recognition

发现论文，激发创造

基于周期一致性的长期活动预测

本研究提出了一种从观察到的图像帧特征直接预测未来活动的框架，以及一个基于时间的循环一致性损失来预测未来活动和过去活动，与其他方法相比，在 Breakfast 数据集和 50Salads 上实现了最先进的结果。

Sep, 2020

活动不确定性感知预测

本文利用行为模型和长度模型，针对不确定性进行建模，通过预测分布进行多样本采样，得到能够捕捉多模态未来活动的模型。在多个数据集上测试，模型在预测单个未来活动序列的准确性不受影响的同时，表现出较好的性能。

Aug, 2019

从未标注的视频预测视觉表达

该论文提出了一种利用未标记视频进行计算机视觉的动作和物体预测的深度学习框架，并采用可预测图像特征的目标识别算法进行实验验证。

Apr, 2015

窥探未来：预测视频中未来个人活动和位置

本文提出了一种基于多任务学习的端到端学习系统，利用丰富的视觉特征和人类行为信息相互作用来预测行人未来的路径和活动，实证证明了该方法可以提高未来轨迹预测的准确性，并且还可产生有意义的未来活动预测。

Feb, 2019

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

视频中行为进度的预测

该研究提出了一种名为 ProgressNet 的新方法，将 Faster R-CNN 框架与 LSTM 网络相结合，能够准确地预测视频中执行动作的进度，也在两个视频数据集上进行了实验证明。

May, 2017

预测未来：联合学习模型用于行动预测

本篇论文提出了一种行动预测模型，受人类神经结构的启发，在预测未来视觉和时间表现方面，能够预测合理的未来行动，并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合，该模型在多个数据集上优于当前最先进的方法。

Dec, 2019

未来的 Transformer 用于长期行动预测

提出了一种全新的基于注意力机制的动作预测模型，称为 Future Transformer (FUTR)，它能够学习全局的视频动作信息，以预测长达数分钟的未来动作序列，和传统的自回归模型相比，FUTR 可以更准确、更快速地进行长期预测。在两个标准数据集 Breakfast 和 50Salads 上进行了实验，FUTR 模型取得了最新的最优结果。

May, 2022

通过想象学习预测自我中心动作

本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作，提出利用未观察的帧的标志挖掘做出预测，利用 ImagineRNN 将动作预测分解为一系列未来功能预测，并通过代理任务和残差预测进一步改进模型。

Jan, 2021

用于长距离视频理解的时间聚合表示

本文提出了一种灵活的多粒度时间聚合框架，用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测，并在 Breakfast，50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果，且兼容于视频分割和动作识别。

Jun, 2020