AAAIDec, 2022

VASR: 情境识别的视觉类比

TL;DR介绍了一项新颖的任务:视觉情境类比识别,通过 CLIP 模型生成了 50 万个类比数据集,并创建了一个 3820 个样本验证集,实验结果表明目前最先进的模型效果在随机干扰下良好,但在精心选择干扰时效果大打折扣,希望我们的数据集能鼓励新的类比制作模型的发展。