CVPRFeb, 2024

Polos: 从人类反馈中进行多模态度量学习用于图像字幕生成

TL;DR提出了一种基于人类反馈训练的 Polos 的自动评估度量标准用于图像字幕模型,该度量标准从多模态输入中计算得分,利用通过大规模对比学习训练的嵌入进行平行特征提取机制。通过在 Polis 数据集上取得的最新成果,证明了该方法具有效果和鲁棒性。