多尺度视觉 Transformer 结合二分图匹配进行高效单阶段动作定位

Dec, 2023

多尺度视觉 Transformer 结合二分图匹配进行高效单阶段动作定位

Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization

Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos

TL;DR这篇研究旨在解决行动定位的问题，提出了一种基于 MViTv2-S 模型、使用匹配损失函数的架构，通过直接应用视觉转换器的输出标记进行双向匹配，实现同时完成行动定位和目标检测的任务，在 AVA2.2 数据集上相对于两阶段方法，在 mAP 上取得了 + 3 的提升。

Abstract

action localization is a challenging problem that combines detection and recognition tasks, which are often addressed separately. State-of-the-art methods rely on off-the-shelf bounding box detections pre-computed at high resolution and propose transformer models that focus on the clas

action localization state-of-the-art methods detr-like architectures matching loss mvitv2-s model

发现论文，激发创造

TransMatcher：一种利用 Transformer 实现深度图像匹配的通用人员重识别方法

本文认为转换器由于缺乏图像之间的关注而不适用于图像匹配，因此提出了一种简化的解码器，称为 TransMatcher，它在一些流行的数据集中实现了最先进的表现以进行泛化人员再识别。

May, 2021

针对少样本动作识别的任务特定对齐和多层 transformer

本文提出了一种名为 TSA-MLT 的端到端方法，在多层次特征上使用多层 Transformer 并使用任务特定的 TSA 进行处理，然后使用 L2 和 Optimal transport 距离度量进行融合，并以交叉熵损失进行训练以获得时间和语义方面的对齐，实验结果表明，在 HMDB51 和 UCF101 数据集上获得了最先进的结果，在 Kinetics 和 something-2-something V2 数据集基准测试上也有竞争力。

Jul, 2023

MViTv2: 改进的多尺度视觉 Transformer 用于分类和检测

本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构，提出了一种改进版本的架构，将分解相对位置嵌入和残差池连接融入 MViTv2，并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中，取得了优异的性能，在三个领域的实验表明，相比于传统的拼合注意力机制，MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。

Dec, 2021

LocATe: 3D 中基于 Transformer 的全流程动作定位

提出了 LocATe 方法，一种全新的、端到端的 3D-TAL 方法，同时定位和识别 3D 运动中的动作，并用稀疏注意力处理高维输入，能够更好地捕捉动作之间的长期关联，并优于当前最先进的 3D-TAL 方法，在现有的 PKU-MMD 3D-TAL 基准上实现了 93.2％的 mAP，同时提出了一种具有挑战性和更实际的基准数据集 BABEL-TAL-20（BT20）。

Mar, 2022

DVANet：多视角行为识别中视角和动作特征的解耦合

提出一种新颖的多视图动作识别方法，通过可学习的变换器解码查询和两个监督对比损失将学习到的动作特征与视图信息分离，从而显著提高了多视图动作识别的性能。

Dec, 2023

使用多任务深度学习进行 2D/3D 姿势估计和动作识别

本文提出了一种多任务框架，用于联合解决静态图像的二维和三维姿势估计及视频序列的人类动作识别问题。实现了端到端优化，与传统分开学习相比准确率显著提高，报告了使用该方法对 MPII、Human3.6M、Penn Action 和 NTU 四个数据集的测试结果，证明了其在目标任务上的有效性。

Feb, 2018

具有稳定匹配的检测变压器

探讨 DETR 中跨不同解码器层次的匹配稳定性问题，提出使用位置度量监督正样本的分类得分和集成位置度量到 DETR 的分类损失和匹配代价中的两种方法，并在 COCO 检测基准测试中验证其有效性。

Apr, 2023

从 CNN-Transformer 模型中提取知识，以增强人类动作识别

通过知识蒸馏以及结合 CNN 和 ViT 模型，本研究旨在改善人体动作识别的性能和效率，从较大的教师模型向较小的学生模型传递知识，并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型，扩展了对局部图像特征和全局特征的关注，进而显著提升了动作识别的准确性和平均精度。

Nov, 2023

面向语言驱动视频动作定位的实体感知和动作感知 Transformer

本文提出了一种利用实体感知和动作感知的转换器，通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明，相比于现有方法，我们的方法在动作定位的精度上具有优势。

May, 2022

BIT：高效的监督动作分割的双层时序建模

我们提出了一种高效的 BI-level Temporal modeling (BIT) 框架，用于监督行动分割任务，通过学习明确的行动标记来表示行动段，在帧级和行动级上进行时间建模，同时保持较低的计算成本，提高了现有基于 transformer 的方法在行动分割方面的准确性和计算效率。

Aug, 2023