Apr, 2025

基于隐式对比学习的视觉概念建模:视觉语言指令微调

TL;DR本研究针对当前大型视觉-语言模型在处理整个图像时效率低下的问题,提出了一种端到端的自监督视觉概念建模框架VCM。该方法通过隐式对比学习和视觉-语言微调构建视觉概念模型,显著降低计算成本,同时保持在各种图像理解任务中的优良性能,从而提升了视觉编码器在经典视觉概念感知任务中的能力。