基于第一人称视频的动作预测的滚动展开 LSTM

May, 2020

基于第一人称视频的动作预测的滚动展开 LSTM

Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video

Antonino Furnari, Giovanni Maria Farinella

TL;DR本文提出了一种基于 Rolling-Unrolling LSTM、序列完成预训练技术和 Modality ATTention 机制的方法来预测自我中心视频中未来的行动和交互对象，并在 EPIC-Kitchens、EGTEA Gaze + 和 ActivityNet 数据集上验证了其有效性。

Abstract

In this paper, we tackle the problem of egocentric action anticipation, i.e., predicting what actions the camera wearer will perform in the near future and which objects they will interact with. Specifically, we contribute →

egocentric action anticipation rolling-unrolling lstm sequence completion pre-training modality attention multi-modal predictions

发现论文，激发创造

用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为

本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架，能够对计算机视觉领域的尺度序列问题进行有效解决，同时在 EPIC-Kitchens 等数据集上表现出色。

May, 2019

通过想象学习预测自我中心动作

本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作，提出利用未观察的帧的标志挖掘做出预测，利用 ImagineRNN 将动作预测分解为一系列未来功能预测，并通过代理任务和残差预测进一步改进模型。

Jan, 2021

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

实时自我中心动作预测：一种评估方案和方法

为了进行流式自我中心行动评估，我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型，该模型基于过去到未来的蒸馏损失进行优化，实验表明，这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。

Jun, 2023

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

多模态时间卷积网络在自我中心视频中预测动作

本文提出了一种基于时间卷积的层次结构多模态神经网络，不依赖于循环层实现对人类动作的预测，且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能，但具有明显的时间优势。

Jul, 2021

标签平滑的行动预测知识蒸馏

本研究提出了一种基于 LSTM 网络的多模态框架，用于捕捉和模拟多标签的行动预测问题，并引入标签平滑的概念，以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。

Apr, 2020

LALM：基于语言模型的长期行动预测

使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位，通过整合动作识别模型与视觉 - 语言模型，利用过去的事件信息进行动作预测，达到了在不同复杂活动中的泛化能力。

Nov, 2023

2023 Ego4D 长期行动预测挑战技术报告

本报告描述了我们在 Ego4D 長期動作預測挑战赛 2023 中的技术细节，我们引入了三个改进，包括 SlowFast 和 SlowFast-CLIP 模型的集合，放松未来动作的顺序限制，以及基于词共现的操作类（动词、名词）的预测，优化了基线性能，取得了公共排行榜的第二名。

Jul, 2023

AntGPT：大型语言模型能否帮助从视频中进行长期动作预测？

通过利用大型语言模型，我们提出了一种用于长期动作预测的两阶段框架 AntGPT，能够在人机交互中对未来行为进行准确预测，并且取得了最新的研究成果。

Jul, 2023