ACLJun, 2023

基于 CLIP Listener 的实用推理的对比说明

TL;DR本文提出了一种基于对比度创建区分性字幕的方法,该方法建立在将字幕作为参照游戏进行的实用推理程序上,并利用现成的 CLIP 模型对接收者进行参数化,以在推理分别对待种类相似的其他干扰图像时从 CLIP 获得视觉 - 语言对齐表示,其自动优化字幕的信息性,优越于人们对具有区分性字幕的图像的准确性评估。