Jul, 2024

智能视觉语言推理者

TL;DR本研究探讨了视觉语言模型(VLM)作为推理器的能力,通过研究多模态人工智能,使用多模态算法推理任务(SMART task)中的抽象概念,以提高视觉 grounding,并通过合适的超参数和训练选择显著提升了推理技能。