Dec, 2023

在单个GPU上的数据有效多模态融合

TL;DRFuseMix是一种多模态增强方案,在任意预训练的单模态编码器的潜空间上操作,通过使用FuseMix进行多模态对齐,我们以远低于CLIP的计算和数据成本,在图像-文本和音频-文本检索任务中实现具有竞争力的性能。