物体如何帮助动作识别？

CVPRJun, 2023

How can objects help action recognition?

Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid

TL;DR本文提出了一种针对视频模型的对象引导的标记采样策略以及对象感知的注意力模块来改善识别精度，并使用较少的标记与强基线匹配，并在处理相同数量的标记时，在 SomethingElse、Something-something v2 和 Epic-Kitchens 数据集上分别提高 0.6 到 4.2 个点。

Abstract

Current state-of-the-art video models process a video clip as a long sequence of spatio-temporal tokens. However, they do not explicitly model objects, their interactions across the video, and instead process all

video models objects token sampling object-aware attention recognition accuracy

发现论文，激发创造

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

助力之手：一种物体感知的自我中心视频识别模型

引入一种面向对象的解码器，通过提供手部位置、物体位置以及物体的语义标签的预测任务来增强模型的对象感知能力，以在自我中心视频中提高时空表示的性能。通过在几个下游视频文本检索和分类基准测试中进行强转移和使用学习到的表示来进行长期视频理解任务的输入，证明了我们模型学到的对象感知表示的性能优于现有技术水平，即使与使用更大批次大小进行训练的网络相比也是如此。通过使用嘈杂的图像级别检测作为伪标签进行训练，模型可以通过视频一致性提供更好的边界框，并在关联文本描述中进行词的定位，从而显示出该模型可以作为自我中心视频模型的替代品来通过视觉文本对齐来提高性能。

Aug, 2023

目标中心动作识别的同时检测和交互推理

基于对象为中心的行为识别中的对象检测与交互推理的一阶段端到端行为识别框架，在提取视频特征的基础网络之后，通过三个模块同时进行对象检测和交互推理，既避免了对现成的对象检测器的严重依赖，也减轻了多阶段训练的负担，实验结果在常规、组合性和少量样本的行为识别任务上表现出色。

Apr, 2024

人类极简视频对动态识别模型的启示

研究了人类视觉中空间和时间信息的整合机制，提出了最小视频概念，并发现当前动态视觉识别网络无法重现人类对于整合空间和时间非常有效的能力。

Apr, 2021

基于条件的视频目标中心学习

该论文提出了一种弱监督学习方法，以对象为中心的表示和光流条件模型，可提高现实数据下的实例分割和追踪效果，改进了查询模型的灵活性，并扩展了应用范围。

Nov, 2021

建模空间 - 时间交互以进行组合动作识别

该研究提出组合动作识别的方法，并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能，表明显式地对人体 - 物体之间的交互行为建模是有效的。

May, 2023

Objects2action: 不依赖任何视频样例的动作分类与定位

本文提出了一种基于对象语义嵌入和零样本学习的动作识别方法，实现了对未知动作的识别和定位。

Oct, 2015

视频中的对象级视觉推理

本文讨论了利用深度学习模型进行人类活动识别研究中的挑战，并提出了一种基于对象感知网络的模型，以实现对视频中的语义意义的时空交互的推理，从而在三个不同的数据集上取得了最先进的结果。

Jun, 2018

面向上下文感知语音识别的视觉特征

该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性，通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录，可以应用于机器人、人机交互及音视频存档索引等领域。

Dec, 2017

用于零样本定位和动作分类的空间感知物体嵌入

本研究旨在通过空间感知物体嵌入实现视频中人类动作的零样本定位和分类，以提高全局对象分类得分并实现新的时空操作检索方案。实验证明，我们的方法在四个当代行动视频数据集中具有竞争优势。

Jul, 2017