Aug, 2023

E-CLIP: 通过 CLIP 实现高效标签的事件驱动开放式理解

TL;DR提出了一种名为 E-CLIP 的框架,它通过引入新颖的事件编码器和文本编码器,以及原始图像编码器,采用层次三重对比对齐 (HTCA) 模块来优化相关性,实现三种模态之间的知识传递,并在 N-Caltech 数据集上在微调和少样本设置下将性能提升了 3.94% 和 4.62%。此外,E-CLIP 可以灵活地扩展到使用文本或图像查询的事件检索任务。