人类中心视频中基于知识引导的短上下文动作预测

ICCVSep, 2023

人类中心视频中基于知识引导的短上下文动作预测

Knowledge-Guided Short-Context Action Anticipation in Human-Centric Videos

Sarthak Bhagat, Simon Stepputtis, Joseph Campbell, Katia Sycara

TL;DR本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Abstract

This work focuses on anticipating long-term human actions, particularly using short video segments, which can speed up editing workflows t

long-term human actions short video segments editing workflows transformer network action anticipation

发现论文，激发创造

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

视频中的预测与下一个动作预测：基于端到端的具有记忆的模型

提出一种基于记忆的端到端网络进行行为预测与预测，表明使用动态内存训练历史可以显着提高预测性能。

Jan, 2019

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Oct, 2022

预测未来：联合学习模型用于行动预测

本篇论文提出了一种行动预测模型，受人类神经结构的启发，在预测未来视觉和时间表现方面，能够预测合理的未来行动，并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合，该模型在多个数据集上优于当前最先进的方法。

Dec, 2019

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

标签平滑的行动预测知识蒸馏

本研究提出了一种基于 LSTM 网络的多模态框架，用于捕捉和模拟多标签的行动预测问题，并引入标签平滑的概念，以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。

Apr, 2020

基于意图预测的长期人类自我中心行动预测

利用层次化的结构假设一系列低级别的人类行为可以从人类意图驱动，从而解决长期行动预测的任务，该模型在 EGO4D 挑战中排名第一，代码可在提供的链接中找到。

Jul, 2022

以意图为条件的注视导向图神经网络用于动作预测

通过将人类凝视引入计算算法，我们提出了一种基于视觉 - 语义图的 “凝视引导行为预测” 算法，利用图神经网络识别行为者的意图并预测行为序列以达到该意图，并通过收集包含人类凝视数据的 VirtualHome 环境中生成的家庭活动数据集，在 18 类意图识别的准确性上实现了 7% 的改进，凸显了我们方法从人类凝视数据中学习重要特征的效果。

Apr, 2024

未来的 Transformer 用于长期行动预测

提出了一种全新的基于注意力机制的动作预测模型，称为 Future Transformer (FUTR)，它能够学习全局的视频动作信息，以预测长达数分钟的未来动作序列，和传统的自回归模型相比，FUTR 可以更准确、更快速地进行长期预测。在两个标准数据集 Breakfast 和 50Salads 上进行了实验，FUTR 模型取得了最新的最优结果。

May, 2022