Apr, 2024

HAMMR: 分层多模态反应智能代理程序用于通用 VQA

TL;DR利用大型语言模型(LLMs)与外部专用工具(LLMs+tools)相结合是解决多模态任务(如视觉问答)的最新范式。本研究以统一的视角提出 VQA 问题,并在包括计数、空间推理、OCR-based 推理、视觉指向、外部知识等各种 VQA 任务中评估了单一系统。我们通过引入 HAMMR(HierArchical MultiModal React)提出了层次化的方法,该方法提高了 LLM+tools 方法的组合性,对于在通用 VQA 上获得高准确度至关重要。在我们的通用 VQA 测试集上,HAMMR 的性能超过了简单应用 LLM+tools 方法的 19.5%。此外,HAMMR 在该任务上取得了最新的最佳结果,超过了通用的独立 PaLI-X VQA 模型 5.0%。