Apr, 2024

CVPR2024 NICE 图像字幕挑战的解决方案

TL;DR本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法,通过检索增强和字幕评分方法有效地增强图像字幕,利用图像字幕模型生成的高质量字幕作为训练数据,利用基于手工模板的大规模视觉 - 语言预训练模型(OFA)执行图像字幕任务,并将字幕级策略与检索增强策略相结合,以生成更高质量、更匹配和语义丰富的字幕。基于这种方法,在排行榜上排名第一,在所有其他指标上都取得了第一名的成绩。