May, 2024

利用图像理解的自我训练增强大型视觉语言模型

TL;DR采用自我训练方法提高大型视觉语言模型在图像理解方面的能力,通过自动生成偏好图像描述来构建图像理解的偏好数据集,利用少量的现有数据进行自我改进,验证了其在七个不同基准测试中的有效性和潜力。