Dec, 2023

通过自洽解释改进的视觉对准

TL;DR使用视觉与语言模型、视觉解释方法和近义词进行微调,目标是提高定位能力和对象高亮质量。在多个数据集中,通过该方法相较于基线方法和之前的工作获得了显著的改进。