Nov, 2023

ZEETAD:适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

TL;DR本研究呈现了 ZEETAD,这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法,通过最小程度地更新冻结的 CLIP 编码器,实现对未见过的动作类别的辨别能力增强,并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。