Feb, 2024

无参考图像字幕评估指标中的眼镜蛇效应

TL;DR评估文本描述与相应图像之间的兼容性是多模态研究中的核心工作之一。本文研究了无参考指标的不足之处,并提出了一种名为 “自我完善” 的新方法来纠正这些指标的不足,并通过 GPT-4V 评估生成的句子以获得最先进的性能。此外,我们还介绍了一个具有挑战性的评估基准来全面评估无参考图像描述度量标准。