通过对抽象目标的建模预测下一步行动

Sep, 2022

通过对抽象目标的建模预测下一步行动

Predicting the Next Action by Modeling the Abstract Goal

Debaditya Roy, Basura Fernando

TL;DR使用可变循环网络，结合视觉表示来提取目标信息，设计了一种抽象目标，用于减少人类行为预测中的不确定性，实验结果在多个数据集上达到了最新的最佳表现。

Abstract

The problem of anticipating human actions is an inherently uncertain one. However, we can reduce this uncertainty if we have a sense of the goal that the actor is trying to achieve. Here, we present an action anticipation model that leverages →

action anticipation goal information abstract goal visual representation variational recurrent network

发现论文，激发创造

预测未来：联合学习模型用于行动预测

本篇论文提出了一种行动预测模型，受人类神经结构的启发，在预测未来视觉和时间表现方面，能够预测合理的未来行动，并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合，该模型在多个数据集上优于当前最先进的方法。

Dec, 2019

目标一致的动作预测

本文提出了一种解决短期行动预测问题的方法，即预测行动发生前一秒钟。我们将高级意图信息融入模型中，以预测未来的行动，并提出了一种一致性损失函数来促进预测的行动符合视频中的高级目标，实验证明我们的方法在两个大规模数据集 Assembly101 和 COIN 上实现了最新的成果。

Jun, 2023

标签平滑的行动预测知识蒸馏

本研究提出了一种基于 LSTM 网络的多模态框架，用于捕捉和模拟多标签的行动预测问题，并引入标签平滑的概念，以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。

Apr, 2020

用语义引导的表示学习实现行动预测

预测未来活动的任务暴露于固有的未来不确定性和对相互关联动作推理的困难，我们提出了一种能够感知语义互连性的行动表示学习框架（S-GEAR），通过学习视觉行动原型并利用语言模型制定其关系，从而进行语义化。通过在四个行动预测基准上的测试，我们证明了 S-GEAR 相比以前的方法获得了更好的结果，并且有效地将语言到视觉原型之间的几何关联性进行了传递，同时展示了行动语义互连性的复杂影响，开辟了预测任务的新研究领域。

Jul, 2024

通过想象学习预测自我中心动作

本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作，提出利用未观察的帧的标志挖掘做出预测，利用 ImagineRNN 将动作预测分解为一系列未来功能预测，并通过代理任务和残差预测进一步改进模型。

Jan, 2021

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

以意图为条件的注视导向图神经网络用于动作预测

通过将人类凝视引入计算算法，我们提出了一种基于视觉 - 语义图的 “凝视引导行为预测” 算法，利用图神经网络识别行为者的意图并预测行为序列以达到该意图，并通过收集包含人类凝视数据的 VirtualHome 环境中生成的家庭活动数据集，在 18 类意图识别的准确性上实现了 7% 的改进，凸显了我们方法从人类凝视数据中学习重要特征的效果。

Apr, 2024

实时自我中心动作预测：一种评估方案和方法

为了进行流式自我中心行动评估，我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型，该模型基于过去到未来的蒸馏损失进行优化，实验表明，这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。

Jun, 2023

基于意图预测的长期人类自我中心行动预测

利用层次化的结构假设一系列低级别的人类行为可以从人类意图驱动，从而解决长期行动预测的任务，该模型在 EGO4D 挑战中排名第一，代码可在提供的链接中找到。

Jul, 2022

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017