FROSTER:冷冻CLIP是开放词汇动作识别的强大教师
本文提出了一个新的大规模视频数据集,用于识别和时间定位从Web视频中收集的人类动作,HACS(Human Action Clips and Segments)。我们利用视觉分类器中的共识和分歧来自动挖掘未标记视频中的候选短片段,并由人类标注员进行验证。HACS Clips包含150万个已标注片段,HACS Segments包含139,000个动作片段,涵盖200个类别。该数据集是大规模动作识别基准和时空特征学习的良好来源。
Dec, 2017
本文介绍了一种轻量级的“剪辑采样”模型,可在长视频中高效识别最显著的时间片段,将行动识别的计算成本显著降低,同时提高识别准确性。
Apr, 2019
本研究提出了一种基于视觉-文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的“预训练、提示和微调”范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
使用共享的冻结卷积CLIP骨干网络,将当前的两阶段流程大大简化,并显著提高准确性和成本平衡,成为各种开放词汇语义分割数据集中的最新最佳表现。
Aug, 2023
本研究介绍了Open-VCLIP++,它是一个简单而有效的框架,通过最小化修改CLIP来捕捉视频中的时空关系,从而创建一个专门的视频分类器,同时追求泛化性。通过在训练和测试过程中利用权重插值的优势,我们演示了训练Open-VCLIP++等同于零历史数据的持续学习。此外,我们利用大型语言模型生成了细粒度的视频描述,并与视频特征进行了对齐,从而更好地将CLIP应用于视频领域。我们的方法在三个广泛使用的动作识别数据集上进行了评估,并超过了现有最先进技术的显著水平。我们在UCF、HMDB和Kinetics-600数据集上分别实现了88.1%、58.7%和81.2%的零样本准确率,分别比最佳替代方法高出8.5%、8.2%和12.3%。我们还在MSR-VTT视频文本检索数据集上进行了评估,结果显示我们的方法在视频到文本和文本到视频的检索性能上达到了竞争水平,并且相比其他方法使用了更少的微调数据。
Oct, 2023
本研究呈现了ZEETAD,这是一个基于Transformer和CLIP模块的零样本时间动作检测方法,通过最小程度地更新冻结的CLIP编码器,实现对未见过的动作类别的辨别能力增强,并展示了其在零样本时间动作检测和从ViL模型到未见动作类别的有效知识传递方面的卓越性能。
Nov, 2023
基于 CLIP 的视频学习器在跨领域的开放词汇动作识别任务中表现受限,本文通过建立一个名为 XOV-Action 的跨领域开放词汇动作识别基准以及提出一种新颖的场景感知视频-文本对齐方法,来应对这一挑战,实验结果验证了我们方法的有效性。
Mar, 2024
本研究旨在填补 Open-Vocabulary Action Recognition 领域中一个重要研究空白,即通过模拟不同类型的多层噪声来评估现有方法的稳健性,发现它们的稳健性较差。为了解决噪声 OVAR 任务,我们进一步提出了一个新颖的去噪框架,包括生成和判别两个部分。实验证明我们的方法在三个数据集中具有优越的稳健性,并通过逐步优化的方式剖析了每个组件的有效性。
Apr, 2024