通过想象学习预测自我中心动作

Jan, 2021

Learning to Anticipate Egocentric Actions by Imagination

Yu Wu, Linchao Zhu, Xiaohan Wang, Yi Yang, Fei Wu

TL;DR本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作，提出利用未观察的帧的标志挖掘做出预测，利用 ImagineRNN 将动作预测分解为一系列未来功能预测，并通过代理任务和残差预测进一步改进模型。

Abstract

Anticipating actions before they are executed is crucial for a wide range of practical applications, including autonomous driving and robotics. In this paper, we study the egocentric action anticipation task, which predicts future action seconds before it is performed for →

action anticipation egocentric videos imaginernn future feature predictions residual anticipation

发现论文，激发创造

实时自我中心动作预测：一种评估方案和方法

为了进行流式自我中心行动评估，我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型，该模型基于过去到未来的蒸馏损失进行优化，实验表明，这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。

Jun, 2023

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

基于第一人称视频的动作预测的滚动展开 LSTM

本文提出了一种基于 Rolling-Unrolling LSTM、序列完成预训练技术和 Modality ATTention 机制的方法来预测自我中心视频中未来的行动和交互对象，并在 EPIC-Kitchens、EGTEA Gaze + 和 ActivityNet 数据集上验证了其有效性。

May, 2020

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为

本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架，能够对计算机视觉领域的尺度序列问题进行有效解决，同时在 EPIC-Kitchens 等数据集上表现出色。

May, 2019

标签平滑的行动预测知识蒸馏

本研究提出了一种基于 LSTM 网络的多模态框架，用于捕捉和模拟多标签的行动预测问题，并引入标签平滑的概念，以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。

Apr, 2020

预测未来：联合学习模型用于行动预测

本篇论文提出了一种行动预测模型，受人类神经结构的启发，在预测未来视觉和时间表现方面，能够预测合理的未来行动，并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合，该模型在多个数据集上优于当前最先进的方法。

Dec, 2019

从未标注的视频预测视觉表达

该论文提出了一种利用未标记视频进行计算机视觉的动作和物体预测的深度学习框架，并采用可预测图像特征的目标识别算法进行实验验证。

Apr, 2015

自我调控学习用于主观视频活动预测

本文提出了一种基于自我调节学习的框架来解决标准递归序列预测在 egocentric 视觉中存在的误差积累问题，同时通过多任务学习进行联合特征学习，明显优于现有的最新技术，可以精确地识别支持活动语义的动作和对象概念。

Nov, 2021

通过预测未来动态图像来预测动作

本文提出了一种使用动态图像和定制损失函数的生成模型来预测人类行为的方法，该方法在三个基准测试中相较于现有的最佳方法增强了 4% 至 5.2% 的预测准确性。

Aug, 2018