从识别到预测:利用序列推理进行动作预判
本文提出了一种新的动作预测方法,该方法基于多阶段LSTM网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了22.0%(JHMDB-21),14.0%(UT-Interaction),和49.9%(UCF-101)的准确率。
Mar, 2017
我们提出了一种强化编解码(RED)网络用于动作预测,RED以多个历史表示为输入,并学习预测未来表示的序列,通过采用强化模块,鼓励系统尽早进行正确预测,并在TVSeries,THUMOS-14和TV-Human-Interaction数据集上取得了最先进的性能。
Jul, 2017
在此研究中,我们提出了基于瓶颈的注意力模型(Temporal Progressive)来捕捉动作的演变,通过逐步从精细到粗糙的尺度进行渐进采样。我们的实验表明,该模型可以在四个视频数据集上实现早期动作预测的最先进性能。
Apr, 2022
提出了一种全新的基于注意力机制的动作预测模型,称为Future Transformer(FUTR),它能够学习全局的视频动作信息,以预测长达数分钟的未来动作序列,和传统的自回归模型相比,FUTR可以更准确、更快速地进行长期预测。在两个标准数据集Breakfast和50Salads上进行了实验,FUTR模型取得了最新的最优结果。
May, 2022
ANTICIPATR模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022
本文通过将符号性知识图谱融入变换网络,提高了视频段期望动作的预测准确性,从而加快了编辑工作流程,并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上,我们的方法在使用短视频上下文进行长期动作预测方面,超过了现有最先进方法高达 9%。
Sep, 2023
通过引入PlausiVL,我们开发了一个大规模视频语言模型,提供了在现实世界中可能发生的行动序列的能力,并引入了两个客观函数,即基于反事实的可行动作序列学习损失和长时程行动重复损失,用以探讨行动序列的可行性。我们通过利用时态逻辑约束和动词-名词动作对逻辑约束来创建不可信/反事实行动序列,并使用这些序列以合理动作序列学习损失训练模型,以便模型区分可行和不可行的行动序列,并学习隐含的针对行动预测任务的时间暗示。长时程行动重复损失对于在更长的时间窗口内容易重复的动作施加更高的惩罚,增强模型生成多样且可行的行动序列能力。我们在两个大规模数据集(Ego4D和EPIC-Kitchens-100)上评估了我们的方法,并在行动预测任务中取得了显著改善。
May, 2024
预测未来活动的任务暴露于固有的未来不确定性和对相互关联动作推理的困难,我们提出了一种能够感知语义互连性的行动表示学习框架(S-GEAR),通过学习视觉行动原型并利用语言模型制定其关系,从而进行语义化。通过在四个行动预测基准上的测试,我们证明了S-GEAR相比以前的方法获得了更好的结果,并且有效地将语言到视觉原型之间的几何关联性进行了传递,同时展示了行动语义互连性的复杂影响,开辟了预测任务的新研究领域。
Jul, 2024