Jun, 2023

SugarCrepe:修复视觉语言组合基准的可黑客化问题

TL;DR本文提出了一种新的视觉 - 语言组合性评估基准 SugarCrepe,采用大型语言模型和对抗性优化机制,有效地降低了现有评估基准的偏差,并重新评估了最先进的模型和近期提出的组合性诱导策略,发现它们的改进被高估了,需要在这一重要方向上进行更多的创新。