Mar, 2023

挑战常识:WHOOPS!一个基于视觉语言的合成与组合图像基准测试

TL;DR介绍了一种名为 WHOOPS!的新视觉常识数据集和基准,其中包括几种面向该数据集的任务,包括图像字幕,跨模式匹配,视觉问答和解释生成任务。结果表明,目前最先进的 AI 模型仍然落后于人类在 WHOOPS!上的表现,希望这个数据集能够激发开发更强的视觉常识推理能力的 AI 模型的灵感。