Dec, 2023

多尺度视觉 Transformer 结合二分图匹配进行高效单阶段动作定位

TL;DR这篇研究旨在解决行动定位的问题,提出了一种基于 MViTv2-S 模型、使用匹配损失函数的架构,通过直接应用视觉转换器的输出标记进行双向匹配,实现同时完成行动定位和目标检测的任务,在 AVA2.2 数据集上相对于两阶段方法,在 mAP 上取得了 + 3 的提升。