May, 2024

V-FLUTE: 视觉比喻语言理解与文本解释

TL;DR使用视觉和语言模型进行图像和文字的理解,探索其在理解比喻和幽默等比喻现象方面的能力,并提出了一个新的任务和数据集,Visual Figurative Language Understanding with Textual Explanations(V-FLUTE)。