关键词image captioning model
搜索结果 - 2
- VLRM:视觉语言模型用作图像字幕的奖励模型
用强化学习和视觉语言模型(如 CLIP 和 BLIP2-ITM)增强图像描述模型(BLIP2)的无监督方法能够生成更长更全面的描述,并在 MS-COCO Carpathy 测试集上获得了令人印象深刻的 0.90 R@1 CLIP 回忆得分。
- ICCV关注图像字幕模型生成的描述
研究了人类描述场景时自底向上显著性视觉关注和物体引用之间的一致性;提出了一种以显著性为增强因素的图像标题生成模型,结果发现该模型并不明显优于传统方法,但能更好地适用于未知数据。