May, 2024

DARA: 域和关系感知适配器 实现对视觉定位的参数高效调整

TL;DR基于文本描述对图像中的物体进行定位的视觉 grounding 是一项具有挑战性的任务。本文通过提出一种名为 DARA 的新的参数高效迁移学习方法,利用域感知适配器 (DA Adapters) 和关系感知适配器 (RA Adapters) 来提高图像 grounding 的准确性和空间推理能力,实现了最佳准确性并节省了大量参数。