Jun, 2024

CVPR2024 多模态算法推理任务 SMART-101 挑战解决方案

TL;DR在本论文中,介绍了 HYU MLLAB KT 团队解决 SMART-101 CVPR 2024 Challenge:多模态算法推理任务。为了解决这个问题,我们提出了两个主要思路:利用大规模语言模型 (LLM) 的推理能力,将给定的视觉线索 (图像) 落实到文本模态中,并生成描述图像上下文的详细文本描述,然后将这些描述作为 LLM 的输入;为了确保不会忽视包含各种几何视觉模式的拼图图像的特性,我们利用目标检测算法来捕捉这些几何模式的视觉特征,并将这些信息作为 LLM 的输入。在拼图分割配置下,在测试集上实现了 29.5 的选项选择准确率 (Oacc),在挑战集上实现了 27.1 的加权选项选择准确率 (WOSA)。