May, 2023

DisCLIP: 开放式词汇参照表达生成

TL;DRDisCLIP: 一种基于预训练的视觉 - 语义模型和 LLM 的 REFER 生成方法,可以在推断时生成与目标概念一致且不包含其他干扰概念的上下文描述,相较于传统的监督学习方法,在泛化到新图像和概念的情况下表现更优,同时使用人工评估和多个 REF 表现测试表明该方法为有效的高质量上下文描述生成方法。