Sep, 2024

从单模态到多模态:扩展投影器以对齐模态

TL;DR本文解决了多模态应用中对强大的单模态编码器未充分利用的问题。我们提出了一种新方法,通过投影层将预训练的单模态编码器对齐,实现语言与视觉模态的连接。我们的最佳模型在数据量减少20倍、计算要求降低65倍的情况下,在ImageNet上获得76%的准确率,显示出该方法在多模态模型构建中的效率和灵活性。