BriefGPT.xyz
Ask
alpha
关键词
rl-tuned model
搜索结果 - 1
VLRM:视觉语言模型用作图像字幕的奖励模型
用强化学习和视觉语言模型(如 CLIP 和 BLIP2-ITM)增强图像描述模型(BLIP2)的无监督方法能够生成更长更全面的描述,并在 MS-COCO Carpathy 测试集上获得了令人印象深刻的 0.90 R@1 CLIP 回忆得分。
PDF
3 months ago
Prev
Next