BriefGPT.xyz
Ask
alpha
关键词
vqa benchmark
搜索结果 - 3
MM-SpuBench: 对多模态 LLMs 中偶发偏见的更好理解
在深度学习模型中,单一模态数据的训练容易导致假的偏见,而多模态大型语言模型(MLLMs)在综合视觉和语言模型方面展示了强大的能力。本文分析了 MLLMs 中的假偏见,揭示了当视觉模型中的偏见影响 MLLMs 中视觉和文本符号之间的对齐时,特
→
PDF
12 days ago
NuScenes-QA: 一个针对自主驾驶场景的多模态视觉问答基准测试
我们介绍了一个新颖的视觉问答(VQA)任务,旨在回答基于街景线索的自然语言问题,在自动驾驶情境下。我们提出了 NuScenes-QA,这是第一个针对自动驾驶场景下的 VQA 任务的基准,包括 34K 个视觉场景和 460K 个问题 - 答案
→
PDF
a year ago
展示、询问、关注和回答:视觉问答的强大基线
本文介绍了一种新的视觉问答任务的基线模型,它可以根据图像的内容和自然语言的问题准确地产生答案,并取得了在不平衡和平衡的 VQA 基准测试中的最新成果。
PDF
7 years ago
Prev
Next