StillFast: 一种短期物体交互预测的端到端方法

Apr, 2023

StillFast: 一种短期物体交互预测的端到端方法

StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation

Francesco Ragusa, Giovanni Maria Farinella, Antonino Furnari

TL;DR本研究提出了一种名为 StillFast 的端到端架构，从自我中心的视角研究了短期物体交互预测问题，在同时处理静态图像和视频的基础上，预测未来交互的动词并确定交互开始的时间，实验表明我们的方法在 EGO4D 数据集上表现优异，已在 EGO4D 短期物体交互预测挑战 2022 中排名第一。

Abstract

anticipation problem has been studied considering different aspects such as predicting humans' locations, predicting hands and objects trajectories, and forecasting actions and human-object interactions. In this paper, we studied the short-term →

anticipation problem object interaction egocentric end-to-end architecture ego4d

发现论文，激发创造

EGO4D STA 挑战赛下一个活动对象的引导关注

本技术报告提出了一种基于引导注意力机制的解决方案来解决 EGO4D 短期预测挑战，该解决方案结合了物体检测和从视频剪辑中提取的时空特征，增强了运动和上下文信息，并进一步解码物体中心和运动中心的信息以解决 EGO4D 短期对象交互预测挑战。我们在快速网络上应用引导关注力，构建我们的模型，该模型在验证集上获得了更好的性能，并在 EGO4D 短期对象交互预测挑战的测试集上取得了最佳成绩。

May, 2023

短期物体交互预期的可供性和注意力模型

短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间，对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了 STAformer，一种新的基于注意力机制的架构，将帧引导的时间池化、双重图像 - 视频注意力和多尺度特征融合集成在一起，以支持从图像输入的视频对中进行 STA 预测。我们引入了两个新模块来通过建模适应能力来确定 STA 预测。第一个是环境适应性模型，它作为在给定物理场景中可能发生的交互的持久性记忆。第二个是通过观察手部和物体轨迹预测交互热点，增加在热点周围定位 STA 预测的置信度。我们的结果显示，在 Ego4D 上整体 Top-5 mAP 改进了高达 + 45％，在一组新的精选 EPIC-Kitchens STA 标签上改进了 + 42％。我们将在 Ego4D 和 EPIC-Kitchens 上发布代码、注释和预先提取的适应能力，以鼓励未来研究在这个领域展开。

Jun, 2024

2023 Ego4D 长期行动预测挑战技术报告

本报告描述了我们在 Ego4D 長期動作預測挑战赛 2023 中的技术细节，我们引入了三个改进，包括 SlowFast 和 SlowFast-CLIP 模型的集合，放松未来动作的顺序限制，以及基于词共现的操作类（动词、名词）的预测，优化了基线性能，取得了公共排行榜的第二名。

Jul, 2023

引导注意力增强基于对象的下一步自我中心动作预测

该论文提出了一种新颖的方法，名为 GANO（Guided Attention for Next active Objects），该方法采用了在对象之间引导注意力机制和从视频剪辑中提取的时空特征，以增强运动和语境信息，并进一步解码面向对象和动态的信息，以解决视角视频中 STA 的问题。在最大的自我中心数据集上表现出比现有最先进方法更好的效果，可以预测下一个活动对象的标签，其边界框位置，相应的未来动作和接触对象的时间。

May, 2023

利用下一个活跃对象进行自我中心视频中的上下文感知预测

本文研究了短期对象交互预测（STA）问题，并提出了一种多模态端到端变压器网络 NAOGAT（Next-Active-Object Guided Anticipation Transformer），它通过处理观察到的帧中的对象，预测下一个活跃对象（NAO），从而引导模型预测上下文感知的未来动作。

Aug, 2023

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

预测物体状态的变化

提出了解决图像和视频中物体状态变化的问题的第一种方法，通过集成学习的视觉特征和自然语言特征来预测未来可能发生的物体状态变化，从而增强视频理解系统的预测性能。

May, 2024

实时自我中心动作预测：一种评估方案和方法

为了进行流式自我中心行动评估，我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型，该模型基于过去到未来的蒸馏损失进行优化，实验表明，这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。

Jun, 2023

使用 EgoNet 进行第一人称动作物体检测

本文利用第一视角摄像头，提出了一种称为 “action-objects” 的概念，并使用 EgoNet 设计了一个预测模型来检测 action-objects。实验表明，该模型在检测 action-objects 方面比之前的基线方法表现更好，具有较强的泛化能力。

Mar, 2016

用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为

本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架，能够对计算机视觉领域的尺度序列问题进行有效解决，同时在 EPIC-Kitchens 等数据集上表现出色。

May, 2019