ICLROct, 2023

语言绑定:通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态

TL;DR我们提出了一种称为 LanguageBind 的方法,通过冻结 VL 预训练得到的语言编码器,然后使用对比学习训练其他多模态编码器,实现多模态语义对齐,同时我们还提出了 VIDAL-10M 数据集用于此目的,经过在该数据集上的预训练,我们在零样本视频文本检索方面优于 ImageBind 1.2% R@1,并且在零样本视频,音频,深度和红外理解任务方面也取得了显著改进。