利用下一个活跃对象进行自我中心视频中的上下文感知预测

Aug, 2023

利用下一个活跃对象进行自我中心视频中的上下文感知预测

Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos

Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue

TL;DR本文研究了短期对象交互预测（STA）问题，并提出了一种多模态端到端变压器网络 NAOGAT（Next-Active-Object Guided Anticipation Transformer），它通过处理观察到的帧中的对象，预测下一个活跃对象（NAO），从而引导模型预测上下文感知的未来动作。

Abstract

Objects are crucial for understanding human-object interactions. By identifying the relevant objects, one can also predict potential future interactions or actions that may occur with these objects. In this paper, we study the problem of short-term object interaction anticipation (STA)

short-term object interaction anticipation naogat next-active-object guided anticipation transformer multi-modal end-to-end transformer network motion dynamics of objects

发现论文，激发创造

引导注意力增强基于对象的下一步自我中心动作预测

该论文提出了一种新颖的方法，名为 GANO（Guided Attention for Next active Objects），该方法采用了在对象之间引导注意力机制和从视频剪辑中提取的时空特征，以增强运动和语境信息，并进一步解码面向对象和动态的信息，以解决视角视频中 STA 的问题。在最大的自我中心数据集上表现出比现有最先进方法更好的效果，可以预测下一个活动对象的标签，其边界框位置，相应的未来动作和接触对象的时间。

May, 2023

EGO4D STA 挑战赛下一个活动对象的引导关注

本技术报告提出了一种基于引导注意力机制的解决方案来解决 EGO4D 短期预测挑战，该解决方案结合了物体检测和从视频剪辑中提取的时空特征，增强了运动和上下文信息，并进一步解码物体中心和运动中心的信息以解决 EGO4D 短期对象交互预测挑战。我们在快速网络上应用引导关注力，构建我们的模型，该模型在验证集上获得了更好的性能，并在 EGO4D 短期对象交互预测挑战的测试集上取得了最佳成绩。

May, 2023

短期物体交互预期的可供性和注意力模型

短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间，对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了 STAformer，一种新的基于注意力机制的架构，将帧引导的时间池化、双重图像 - 视频注意力和多尺度特征融合集成在一起，以支持从图像输入的视频对中进行 STA 预测。我们引入了两个新模块来通过建模适应能力来确定 STA 预测。第一个是环境适应性模型，它作为在给定物理场景中可能发生的交互的持久性记忆。第二个是通过观察手部和物体轨迹预测交互热点，增加在热点周围定位 STA 预测的置信度。我们的结果显示，在 Ego4D 上整体 Top-5 mAP 改进了高达 + 45％，在一组新的精选 EPIC-Kitchens STA 标签上改进了 + 42％。我们将在 Ego4D 和 EPIC-Kitchens 上发布代码、注释和预先提取的适应能力，以鼓励未来研究在这个领域展开。

Jun, 2024

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

预测物体状态的变化

提出了解决图像和视频中物体状态变化的问题的第一种方法，通过集成学习的视觉特征和自然语言特征来预测未来可能发生的物体状态变化，从而增强视频理解系统的预测性能。

May, 2024

走向场景图预测

分析了视频中的时空场景图，提出了 SceneSayer 方法，通过对观察到的视频帧进行推理，模拟对象之间关系的演化，并使用神经常微分方程和神经随机微分方程来预测对象之间的未来关系。在 Action Genome 数据集上进行了大量实验验证了该方法的效果。

Mar, 2024

O2NA：一种用于可控视频字幕生成的面向对象非自回归方法

本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成，它包括确定聚焦对象，生成草案字幕，以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤，实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有与现有最先进技术相当的结果，但具有更高的多样性和推理速度。

Aug, 2021

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

StillFast: 一种短期物体交互预测的端到端方法

本研究提出了一种名为 StillFast 的端到端架构，从自我中心的视角研究了短期物体交互预测问题，在同时处理静态图像和视频的基础上，预测未来交互的动词并确定交互开始的时间，实验表明我们的方法在 EGO4D 数据集上表现优异，已在 EGO4D 短期物体交互预测挑战 2022 中排名第一。

Apr, 2023

双向时序图的目标感知聚合用于视频字幕生成

本文提出了一种新的视频字幕生成方法 OA-BTG，该方法利用基于目标感知聚合和双向时间图 (OA-BTG) 来捕捉视频中显著目标的详细时间动态，从而学习具有区分性的时空表示。实验表明 OA-BTG 在 BLEU@4、METEOR 和 CIDEr 指标上达到了最先进的性能。

Jun, 2019