Jul, 2023

SemEval-2023 任务 1 的增强器:通过提示增强和文本图像扩散增强 CLIP 在处理零样本视觉词义消歧中的复合性和歧义性能力

TL;DR本文有关英文文本下的视觉词义消岐,作者通过两种方法 Augment-CLIP 与 Stable Diffusion Sampling 解决了匹配过程中复杂的组合问题,其中 Augment-CLIP 采用了较大的语言模型来生成文本提示。