EZ-CLIP:高效零样本视频行为识别
本研究提出了一种新的方法:EventCLIP,利用 2D zero-shot recognition 和 few-shot learning 来识别 event camera data,并且使用 temporal feature adapter 来提高模型性能。通过实验证明,EventCLIP 在不同数据集上表现出 state-of-the-art performance,并且能够提高现有的 event-based classifiers 对数据变化的鲁棒性。
Jun, 2023
本文介绍了一种多模态提示学习方案,该方案在单一统一的训练下平衡了监督和零样本学习的表现,并提出了视觉和文本方面的提示方案,通过保持预训练的骨干网络冻结,在保留现有的通用表示的同时实现了最先进的零样本效果。
Apr, 2023
本研究介绍了 Open-VCLIP++,它是一个简单而有效的框架,通过最小化修改 CLIP 来捕捉视频中的时空关系,从而创建一个专门的视频分类器,同时追求泛化性。通过在训练和测试过程中利用权重插值的优势,我们演示了训练 Open-VCLIP++ 等同于零历史数据的持续学习。此外,我们利用大型语言模型生成了细粒度的视频描述,并与视频特征进行了对齐,从而更好地将 CLIP 应用于视频领域。我们的方法在三个广泛使用的动作识别数据集上进行了评估,并超过了现有最先进技术的显著水平。我们在 UCF、HMDB 和 Kinetics-600 数据集上分别实现了 88.1%、58.7% 和 81.2% 的零样本准确率,分别比最佳替代方法高出 8.5%、8.2% 和 12.3%。我们还在 MSR-VTT 视频文本检索数据集上进行了评估,结果显示我们的方法在视频到文本和文本到视频的检索性能上达到了竞争水平,并且相比其他方法使用了更少的微调数据。
Oct, 2023
通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习,我们的方法在少样本学习和零样本学习中具有显著优势,并在少参数和额外计算成本的条件下实现了竞争性性能。
Aug, 2023
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023
本文实证表明,CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本 /few-shot 结果。
Mar, 2022
本研究提出了一种基于视觉 - 文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的 “预训练、提示和微调” 范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。
Jan, 2024
本文提出 Efficient Video Learning (EVL) 框架,使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征,进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型,本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。
Aug, 2022
提出了一种名为 E-CLIP 的框架,它通过引入新颖的事件编码器和文本编码器,以及原始图像编码器,采用层次三重对比对齐 (HTCA) 模块来优化相关性,实现三种模态之间的知识传递,并在 N-Caltech 数据集上在微调和少样本设置下将性能提升了 3.94% 和 4.62%。此外,E-CLIP 可以灵活地扩展到使用文本或图像查询的事件检索任务。
Aug, 2023