CVPRJun, 2024

探索视觉语言组合性和识别的光谱

TL;DR研究了视觉和语言模型领域的复杂关系,特别是在语言理解和细粒度图像与文本对齐方面,探索并评估了现有的 VLMs,在组合性和识别准确性之间的模式和权衡,提出了改进两者能力和基准的策略性努力的必要性。