Jun, 2024
CVPR2024多模态算法推理任务SMART-101挑战解决方案
Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic
Reasoning Task 2024
TL;DR在本论文中,介绍了HYU MLLAB KT团队解决SMART-101 CVPR 2024 Challenge:多模态算法推理任务。为了解决这个问题,我们提出了两个主要思路:利用大规模语言模型(LLM)的推理能力,将给定的视觉线索(图像)落实到文本模态中,并生成描述图像上下文的详细文本描述,然后将这些描述作为LLM的输入;为了确保不会忽视包含各种几何视觉模式的拼图图像的特性,我们利用目标检测算法来捕捉这些几何模式的视觉特征,并将这些信息作为LLM的输入。在拼图分割配置下,在测试集上实现了29.5的选项选择准确率(Oacc),在挑战集上实现了27.1的加权选项选择准确率(WOSA)。