用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为

ICCVMay, 2019

用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为

What Would You Expect? Anticipating Egocentric Actions with Rolling-Unrolling LSTMs and Modality Attention

Antonino Furnari, Giovanni Maria Farinella

TL;DR本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架，能够对计算机视觉领域的尺度序列问题进行有效解决，同时在 EPIC-Kitchens 等数据集上表现出色。

Abstract

egocentric action anticipation consists in understanding which objects the camera wearer will interact with in the near future and which actions they will perform. We tackle the problem proposing an architecture able to anticipate actions at multiple temporal scales using two

egocentric action anticipation lstms modality attention computer vision epic kitchens dataset

发现论文，激发创造

基于第一人称视频的动作预测的滚动展开 LSTM

本文提出了一种基于 Rolling-Unrolling LSTM、序列完成预训练技术和 Modality ATTention 机制的方法来预测自我中心视频中未来的行动和交互对象，并在 EPIC-Kitchens、EGTEA Gaze + 和 ActivityNet 数据集上验证了其有效性。

May, 2020

多模态时间卷积网络在自我中心视频中预测动作

本文提出了一种基于时间卷积的层次结构多模态神经网络，不依赖于循环层实现对人类动作的预测，且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能，但具有明显的时间优势。

Jul, 2021

实时自我中心动作预测：一种评估方案和方法

为了进行流式自我中心行动评估，我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型，该模型基于过去到未来的蒸馏损失进行优化，实验表明，这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。

Jun, 2023

通过想象学习预测自我中心动作

本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作，提出利用未观察的帧的标志挖掘做出预测，利用 ImagineRNN 将动作预测分解为一系列未来功能预测，并通过代理任务和残差预测进一步改进模型。

Jan, 2021

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

文本输入模态对动作预测效果的研究

我们提出了一种多模态预测变压器（MAT）架构，它使用来自多模态特征和文本字幕的信息来预测未来的动作。通过对预训练阶段的动作描述和模态特征融合期间检测到的对象和动作的文本输入进行扩展实验，我们评估了预训练阶段的有效性，并在所有数据集上展示了我们模型的优势。此外，我们还评估了通过文本获取的对象和动作信息的影响，并进行了广泛的消融实验。在 EpicKitchens-100、EpicKitchens-55 和 EGTEA GAZE + 三个数据集上评估表现，结果显示文本描述确实有助于更有效的动作预测。

Jan, 2024

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

LALM：基于语言模型的长期行动预测

使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位，通过整合动作识别模型与视觉 - 语言模型，利用过去的事件信息进行动作预测，达到了在不同复杂活动中的泛化能力。

Nov, 2023

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023