Jun, 2024

BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估

TL;DR双向视觉语言组合性 (BiVLC) 数据集用于添加由合成文本生成的合成负向图像,从而产生两个图像到文本检索示例和两个文本到图像检索示例,发现当前多模态模型在文本到图像方向上表现不佳。