ICLRMar, 2024

认知弹性:揭示图像字幕模型解读屏蔽视觉内容的能力

TL;DR这项研究探讨了图像字幕(IC)模型解码来自不同数据集的掩蔽视觉内容的能力。我们的发现揭示了 IC 模型生成来自掩蔽图像的字幕的能力,这些字幕与原始内容密切相关。值得注意的是,即使在存在掩蔽的情况下,该模型仍然能够灵活地生成描述性的文本信息,超越了原始图像生成的字幕所能观察到的内容。虽然 IC 模型的解码性能随着掩蔽区域面积的增加而下降,但当图像的重要区域没有大面积掩蔽时,模型仍然表现良好。