通过对抽象目标的建模预测下一步行动
本篇论文提出了一种行动预测模型,受人类神经结构的启发,在预测未来视觉和时间表现方面,能够预测合理的未来行动,并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合,该模型在多个数据集上优于当前最先进的方法。
Dec, 2019
本文提出了一种解决短期行动预测问题的方法,即预测行动发生前一秒钟。我们将高级意图信息融入模型中,以预测未来的行动,并提出了一种一致性损失函数来促进预测的行动符合视频中的高级目标,实验证明我们的方法在两个大规模数据集 Assembly101 和 COIN 上实现了最新的成果。
Jun, 2023
本研究提出了一种基于 LSTM 网络的多模态框架,用于捕捉和模拟多标签的行动预测问题,并引入标签平滑的概念,以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。
Apr, 2020
预测未来活动的任务暴露于固有的未来不确定性和对相互关联动作推理的困难,我们提出了一种能够感知语义互连性的行动表示学习框架(S-GEAR),通过学习视觉行动原型并利用语言模型制定其关系,从而进行语义化。通过在四个行动预测基准上的测试,我们证明了 S-GEAR 相比以前的方法获得了更好的结果,并且有效地将语言到视觉原型之间的几何关联性进行了传递,同时展示了行动语义互连性的复杂影响,开辟了预测任务的新研究领域。
Jul, 2024
本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作,提出利用未观察的帧的标志挖掘做出预测,利用 ImagineRNN 将动作预测分解为一系列未来功能预测,并通过代理任务和残差预测进一步改进模型。
Jan, 2021
ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022
通过将人类凝视引入计算算法,我们提出了一种基于视觉 - 语义图的 “凝视引导行为预测” 算法,利用图神经网络识别行为者的意图并预测行为序列以达到该意图,并通过收集包含人类凝视数据的 VirtualHome 环境中生成的家庭活动数据集,在 18 类意图识别的准确性上实现了 7% 的改进,凸显了我们方法从人类凝视数据中学习重要特征的效果。
Apr, 2024
为了进行流式自我中心行动评估,我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型,该模型基于过去到未来的蒸馏损失进行优化,实验表明,这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。
Jun, 2023
利用层次化的结构假设一系列低级别的人类行为可以从人类意图驱动,从而解决长期行动预测的任务,该模型在 EGO4D 挑战中排名第一,代码可在提供的链接中找到。
Jul, 2022
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017