CVPRMay, 2023

ImageBind: 一个绑定所有嵌入空间的嵌入空间

TL;DRImageBind 是一种学习跨六种不同类型数据(图像、文本、音频、深度、热成像和 IMU 数据)联合嵌入的方法,只需使用图像数据对它们进行绑定。它能够实现跨模态检索、跨模态检测和生成等新颖的应用,而且表现出强大的零样本和有限样本识别能力,能够评估视觉模型的性能。