Feb, 2024

超越字面描述:理解与定位与人类意图相一致的开放世界对象

TL;DR我们提出了一项新的面向人类意图解释的视觉引导任务(IVG),并构建了一个最大规模的自由形式意图表达的 IVG 数据集 IntentionVG,通过大量实验验证了我们方法在视觉语言领域的必要性和实用性。