Apr, 2024
VLRM:视觉语言模型用作图像字幕的奖励模型
VLRM: Vision-Language Models act as Reward Models for Image Captioning
Maksim Dzabraev, Alexander Kunitsyn, Andrei Ivaniuta
TL;DR用强化学习和视觉语言模型(如 CLIP 和 BLIP2-ITM)增强图像描述模型(BLIP2)的无监督方法能够生成更长更全面的描述,并在 MS-COCO Carpathy 测试集上获得了令人印象深刻的 0.90 R@1 CLIP 回忆得分。