CVPRMar, 2023

VILA:利用视觉语言预训练学习用户评论中的图像美学

TL;DR提出一种基于用户评论的图像审美预测方法,使用视觉 - 语言预训练模型学习图像的审美表现,结合排名适配器模块设计了一种高效的模型适配方法。实验结果表明,该模型在图像美学字幕生成、零样本风格分类和零样本图像审美评价等任务上表现良好,达到了预先训练模型的最佳性能。