Apr, 2024

VLRM:视觉语言模型用作图像字幕的奖励模型

TL;DR用强化学习和视觉语言模型(如 CLIP 和 BLIP2-ITM)增强图像描述模型(BLIP2)的无监督方法能够生成更长更全面的描述,并在 MS-COCO Carpathy 测试集上获得了令人印象深刻的 0.90 R@1 CLIP 回忆得分。