BriefGPT.xyz
Ask
alpha
关键词
vl models
搜索结果 - 3
EMNLP
视觉语言模型中的问题:探究其在空间推理方面的挑战
通过创造新的语义理解基准数据集,研究表明近期的视觉 - 语言模型在识别基本空间关系方面表现较差,这是由于常用的数据集如 VQAv2 中缺乏关于学习空间关系的可靠数据来源。
PDF
8 months ago
MemeCap: 用于字幕和解释 Memes 的数据集
该研究介绍了一个新的数据集 MemeCap 及可视化模型综合能力的实验,验证了 VL 模型在理解 meme 中的视觉隐喻方面存在的问题。
PDF
a year ago
使用场景图将结构化表示法加入预训练视觉与语言模型
研究表明,为了改善 VL 模型的结构理解能力,场景图等结构化标注数据虽然耗时、昂贵和繁琐,但只需要小型数据集,就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现,通过直接使用场景图标签监督图像和文本编码器,以及添加专门的自适应
→
PDF
a year ago
Prev
Next