Oct, 2023

2023 ICCV 多模态算法推理任务 SMART-101 挑战的解决方案

TL;DR本文介绍了我们在 SMART-101 挑战中解决多模态算法推理任务的解决方案。我们使用分而治之的方法,在数据层面上将所有问题分为八类,并利用 llama-2-chat 模型以零射方式直接生成每个问题的类别。此外,我们在 icon45 数据集上训练了一个 yolov7 模型用于目标检测,并将其与 OCR 方法结合起来识别和定位图像中的对象和文本。在模型层面上,我们使用 BLIP-2 模型并为图像编码器 VIT-G 添加了八个适配器,以自适应地提取不同问题类型的视觉特征。我们将预先构建的问题模板作为输入,使用 flan-t5-xxl 解码器生成答案。在拼图分割配置下,我们在验证集上获得了 26.5 的准确率得分,并在私有测试集上获得了 24.30 的准确率得分。