Feb, 2023

$IC^3$: 图像描述委员会共识

TL;DR本文介绍了一种名为 “基于委员会共识的图像字幕生成”($IC^3$)的新方法,该方法通过多个视角捕捉高级细节并生成单个字幕,人们评价 $IC^3$ 生成的字幕的有帮助程度至少与基准 SOTA 模型相同,并且 $IC^3$ 字幕可以将最先进的自动召回系统的性能提高高达 84%,这表明 $IC^3$ 是一个可以改进现有视觉描述的方法。