Jul, 2023

弥合鸿沟:探索桥梁结构在复杂的视觉推理任务中的能力

TL;DR探讨了多模态架构在复杂视觉推理任务上的表现,发现在 NLVR2 数据集中,使用对象级别特征的桥梁架构并不能提高性能,而预训练多模态数据对于复杂推理任务的良好表现是关键。还对最新的桥梁架构 LLaVA 在零 - shot 环境中的性能进行了初步分析。