MMAug, 2023

Food-500 Cap:用于评估视觉语言模型的细粒度食物标题基准

TL;DR我们综合研究了流行的视觉 - 语言模型(VLMs)在特定领域,即食品领域中的能力,并发现它们在特定领域的表现不如在一般领域中的表现好,同时揭示了 VLMs 在处理不同地理区域的食物方面存在严重偏见。