Oct, 2023

CVPR2023 NICE 图像字幕挑战的解决方案

TL;DR我们在新的零样本图像字幕挑战中提出了解决方案,通过使用 Laion-5B 数据集进行数据级别和 OFA 模型进行模型级别的图像字幕任务,结合对齐图像文本对的对比学习和相似性桶策略,以及检索增强策略构建内容丰富的模板,最终在排行榜上取得了第一名的成绩。