Oct, 2023

语言绑定:通过基于语言的语义对齐将视频-语言预训练扩展到N-模态

TL;DR我们提出了一种称为LanguageBind的方法,通过冻结VL预训练得到的语言编码器,然后使用对比学习训练其他多模态编码器,实现多模态语义对齐,同时我们还提出了VIDAL-10M数据集用于此目的,经过在该数据集上的预训练,我们在零样本视频文本检索方面优于ImageBind 1.2% R@1,并且在零样本视频,音频,深度和红外理解任务方面也取得了显著改进。