Sep, 2021

ActionCLIP:视频动作识别的新范式

TL;DR本研究提出了一种基于视觉 - 文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的 “预训练、提示和微调” 范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。