Dec, 2023
通过自洽解释改进的视觉对准
Improved Visual Grounding through Self-Consistent Explanations
Ruozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez
TL;DR使用视觉与语言模型、视觉解释方法和近义词进行微调,目标是提高定位能力和对象高亮质量。在多个数据集中,通过该方法相较于基线方法和之前的工作获得了显著的改进。