Feb, 2024

基于视觉语言模型的字幕评估方法及其视觉上下文提取

TL;DR通过提取和组织图像的详细内容,包括物体、属性和关系,我们的方法将人类编写的参考文本替换为视觉上下文,并帮助视觉语言模型更好地理解图像,从而提高图像标题评估性能,并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标,并且在与人类判断方面呈现出卓越的一致性。