CVPRMar, 2024

X-MIC:基于跨模态实例条件的自我中心动作泛化

TL;DR通过提出的简单而有效的跨模态适应框架 X-MIC,我们在图像和第三人称视频分类中将视觉语言模型(VLMs)成功进行零样本识别的研究成果进一步应用到自视角视频,通过学习在共享嵌入空间中在视频适配器的帮助下,将文本嵌入与每个自视角视频对齐,最终实现了文本嵌入与自视角视频之间的增强对齐,显著提升了跨数据集的泛化能力。