May, 2024

CVPR 2024 NICE 挑战赛技术报告:使用集成 CLIP 和共识得分进行字幕重新排名评估

TL;DRDSBA LAB 团队提出了一种名为 ECO(Ensembled Clip score and cOnsensus score)的新框架用于评估和排名给定图像的字幕,通过将考虑图像和字幕的语义对齐的 Ensembled Clip 得分与考虑字幕重要性的 Consensus 得分相结合,选择最准确的描述图像的字幕。在 CVPR 2024 研讨会上举办的 Caption Re-ranking Evaluation 比赛中,我们在 CIDEr 评价指标上获得了第三名,在 SPICE 和 METEOR 指标上获得了第二名,在 ROUGE-L 和全部 BLEU 评价指标上获得了第一名。ECO 框架的代码和配置可在 DSBA-Lab/ECO 的 https 链接中找到。