May, 2024

非模态鸿沟:对比鸿沟的特征与解决

TL;DR在多模态对比模型中存在模态差距(modality gap),且对比损失(contrastive loss)实际上导致了这种差距。为了解决这个问题,研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中,改进了对比损失函数(CLIP loss),使得嵌入更均匀地分布在表示空间中,从而消除了差距,进而在零样本图像分类和多模态算术等下游任务中实现了更好的性能。