Jan, 2025

无监督视觉语言对齐

TL;DR本研究解决了现有视觉语言模型需要大量高质量图文训练数据的问题,提出了无监督视觉投影(SVP)框架,强调了无需策划数据或偏好注释的视觉语言对齐能力。研究结果表明,SVP显著提高了多项任务的性能,特别是在图像标注和对象回忆方面的提升,展现出重要的应用潜力。