短期物体交互预期的可供性和注意力模型

Jun, 2024

短期物体交互预期的可供性和注意力模型

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation

Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Josechu Guerrero, Giovanni Maria Farinella, Antonino Furnari

TL;DR短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间，对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了 STAformer，一种新的基于注意力机制的架构，将帧引导的时间池化、双重图像 - 视频注意力和多尺度特征融合集成在一起，以支持从图像输入的视频对中进行 STA 预测。我们引入了两个新模块来通过建模适应能力来确定 STA 预测。第一个是环境适应性模型，它作为在给定物理场景中可能发生的交互的持久性记忆。第二个是通过观察手部和物体轨迹预测交互热点，增加在热点周围定位 STA 预测的置信度。我们的结果显示，在 Ego4D 上整体 Top-5 mAP 改进了高达 + 45％，在一组新的精选 EPIC-Kitchens STA 标签上改进了 + 42％。我们将在 Ego4D 和 EPIC-Kitchens 上发布代码、注释和预先提取的适应能力，以鼓励未来研究在这个领域展开。

Abstract

short-term object-interaction anticipation consists of detecting the location of the next-active objects, the noun and verb categories of the interaction, and the time to contact from the observation of egocentric video. This ability is fundamental for →

short-term object-interaction anticipation wearable assistants human robot interaction staformer affordances

发现论文，激发创造

EGO4D STA 挑战赛下一个活动对象的引导关注

本技术报告提出了一种基于引导注意力机制的解决方案来解决 EGO4D 短期预测挑战，该解决方案结合了物体检测和从视频剪辑中提取的时空特征，增强了运动和上下文信息，并进一步解码物体中心和运动中心的信息以解决 EGO4D 短期对象交互预测挑战。我们在快速网络上应用引导关注力，构建我们的模型，该模型在验证集上获得了更好的性能，并在 EGO4D 短期对象交互预测挑战的测试集上取得了最佳成绩。

May, 2023

引导注意力增强基于对象的下一步自我中心动作预测

该论文提出了一种新颖的方法，名为 GANO（Guided Attention for Next active Objects），该方法采用了在对象之间引导注意力机制和从视频剪辑中提取的时空特征，以增强运动和语境信息，并进一步解码面向对象和动态的信息，以解决视角视频中 STA 的问题。在最大的自我中心数据集上表现出比现有最先进方法更好的效果，可以预测下一个活动对象的标签，其边界框位置，相应的未来动作和接触对象的时间。

May, 2023

利用下一个活跃对象进行自我中心视频中的上下文感知预测

本文研究了短期对象交互预测（STA）问题，并提出了一种多模态端到端变压器网络 NAOGAT（Next-Active-Object Guided Anticipation Transformer），它通过处理观察到的帧中的对象，预测下一个活跃对象（NAO），从而引导模型预测上下文感知的未来动作。

Aug, 2023

LSTA: 面向自我中心行为识别的长短记忆关注

本文提出了一种名为 LSTA 的机制，向注意力平滑地跟踪视频序列中的动态空间相关部分的特征，有效提高了两流架构的自我中心活动识别性能，并且在四项标准测评中取得了最佳表现。

Nov, 2018

StillFast: 一种短期物体交互预测的端到端方法

本研究提出了一种名为 StillFast 的端到端架构，从自我中心的视角研究了短期物体交互预测问题，在同时处理静态图像和视频的基础上，预测未来交互的动词并确定交互开始的时间，实验表明我们的方法在 EGO4D 数据集上表现优异，已在 EGO4D 短期物体交互预测挑战 2022 中排名第一。

Apr, 2023

STA: 大规模视频人员再识别的时空注意力

本文中，我们提出了一种新的空间 - 时间注意力（STA）方法，用于解决视频中的大规模人员重新识别任务，该方法通过在时空维度上充分利用那些具有区分性的目标人物部分来生成鲁棒的剪辑级特征表示，使用该方法可以很好地解决基于视频的人员重新识别的挑战性问题，如姿势变化和部分遮挡。

Nov, 2018

用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为

本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架，能够对计算机视觉领域的尺度序列问题进行有效解决，同时在 EPIC-Kitchens 等数据集上表现出色。

May, 2019

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

一次性几何驱动的交互张量用于自我中心作用感知检测

利用几何信息推断三维场景中的互动信息和可能性，并在机器人和增强现实场景中进行实验，结果表明可以在新颖信搏的环境下以快速率进行预测。

Jun, 2019

STT: 自动驾驶的具有状态的变形器跟踪

通过使用 Transformer 模型，本文提出一种名为 STT 的有状态跟踪模型，它能够可靠地跟踪三维空间中的对象，并精确预测它们的状态，以确保自动驾驶的安全。通过消耗检测历史记录中的丰富外观、几何和运动信号，STT 在数据关联和状态估计任务上进行联合优化，并通过引入新的 S-MOTA 和 MOTPS 指标来评估其综合性能。在 Waymo Open 数据集上，STT 实现了具有竞争力的实时性能。

Apr, 2024