Mar, 2023
挑战常识:WHOOPS!一个基于视觉语言的合成与组合图像基准测试
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images
Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici...
TL;DR介绍了一种名为 WHOOPS!的新视觉常识数据集和基准,其中包括几种面向该数据集的任务,包括图像字幕,跨模式匹配,视觉问答和解释生成任务。结果表明,目前最先进的 AI 模型仍然落后于人类在 WHOOPS!上的表现,希望这个数据集能够激发开发更强的视觉常识推理能力的 AI 模型的灵感。