LSTA: 面向自我中心行为识别的长短记忆关注
无监督视频对象分割(VOS)旨在识别视频中主要前景对象的轮廓,但以往的方法没有充分利用时空上下文,并且无法在实时中处理这一具有挑战性的任务。因此,本文提出了一种高效的长短时序注意力网络(LSTA),从整体视角解决了无监督 VOS 任务。该网络由长时序记忆和短时序注意力两个主要模块组成,前者通过编码外观模式来捕获过去帧和当前帧的长期全局像素关系,后者通过编码动态模式来揭示附近帧和当前帧的短期局部像素关系。为了加快推理速度,采用了高效投影和基于局部性的滑动窗口,分别实现了两个轻量级模块的几乎线性时间复杂度。在几个基准测试中进行了大量实证研究,证明了所提方法具有高效的有希望的性能。
Sep, 2023
本研究提出一种基于深度神经网络模型的近场活动识别模型,其中使用了通过基于分类的 CNN 网络学习到的高度专业的注意力图,以及融合了空间和时间编码的卷积 LSTM 方法,从而实现了将原始视频级别标签用于弱监督学习。该模型具有较高的准确性。
Jul, 2018
本技术报告提出了一种基于引导注意力机制的解决方案来解决 EGO4D 短期预测挑战,该解决方案结合了物体检测和从视频剪辑中提取的时空特征,增强了运动和上下文信息,并进一步解码物体中心和运动中心的信息以解决 EGO4D 短期对象交互预测挑战。我们在快速网络上应用引导关注力,构建我们的模型,该模型在验证集上获得了更好的性能,并在 EGO4D 短期对象交互预测挑战的测试集上取得了最佳成绩。
May, 2023
该论文提出了一种新颖的方法,名为 GANO(Guided Attention for Next active Objects),该方法采用了在对象之间引导注意力机制和从视频剪辑中提取的时空特征,以增强运动和语境信息,并进一步解码面向对象和动态的信息,以解决视角视频中 STA 的问题。在最大的自我中心数据集上表现出比现有最先进方法更好的效果,可以预测下一个活动对象的标签,其边界框位置,相应的未来动作和接触对象的时间。
May, 2023
本文中,我们提出了一种新的空间 - 时间注意力(STA)方法,用于解决视频中的大规模人员重新识别任务,该方法通过在时空维度上充分利用那些具有区分性的目标人物部分来生成鲁棒的剪辑级特征表示,使用该方法可以很好地解决基于视频的人员重新识别的挑战性问题,如姿势变化和部分遮挡。
Nov, 2018
本文提出了一种使用多任务学习的方法,通过并行训练网络来提高动作识别的准确率,并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明,该方法在动作识别上的性能明显优于单任务学习模型,并可以准确预测手部和凝视位置。
Sep, 2019
短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间,对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了 STAformer,一种新的基于注意力机制的架构,将帧引导的时间池化、双重图像 - 视频注意力和多尺度特征融合集成在一起,以支持从图像输入的视频对中进行 STA 预测。我们引入了两个新模块来通过建模适应能力来确定 STA 预测。第一个是环境适应性模型,它作为在给定物理场景中可能发生的交互的持久性记忆。第二个是通过观察手部和物体轨迹预测交互热点,增加在热点周围定位 STA 预测的置信度。我们的结果显示,在 Ego4D 上整体 Top-5 mAP 改进了高达 + 45%,在一组新的精选 EPIC-Kitchens STA 标签上改进了 + 42%。我们将在 Ego4D 和 EPIC-Kitchens 上发布代码、注释和预先提取的适应能力,以鼓励未来研究在这个领域展开。
Jun, 2024
本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架,能够对计算机视觉领域的尺度序列问题进行有效解决,同时在 EPIC-Kitchens 等数据集上表现出色。
May, 2019
本文提出一种新的 Symbiotic Attention 框架 (SAP) 来应用于使用特权信息的视角视频的识别,利用定位感知的对象检测特征来帮助理解演员与对象的互动,并结合新颖的生物共生注意力 (SA) 来加强动作分类的互动,实现了在两个大规模视角视频数据集上的最新技术成果。
Feb, 2020
提出了一种名为 Coarse Temporal Attention Network(CTA-Net)的模型来识别驾驶员的活动,该模型利用了时空注意力来建模细微变化,并使用注意机制来生成用于活动识别的高级动作特定背景信息。
Jan, 2021