Mar, 2024

多智能体视觉问答:在零样本条件下探索多智能体基础模型

TL;DR本文研究了基于视觉问答(VQA)任务中基础模型的零 - shot 能力。我们提出了一种自适应多智能体系统,称为多智能体 VQA,通过使用专门的智能体作为工具,克服了基础模型在目标检测和计数方面的局限性。与现有方法不同的是,我们的研究重点在于系统在特定 VQA 数据集上不进行微调的性能,使其在开放世界中更实用和稳健。我们呈现了零 - shot 场景下的初步实验结果,并突出了一些失败案例,为未来的研究提供了新的方向。