Jun, 2024

预训练视觉-语言模型的高效和长尾泛化

TL;DR针对使CLIP适应现实世界的挑战,我们提出了一种名为Candle的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在11个不同数据集上展示出了卓越的性能,并大大减少了训练时间。