Jun, 2024

FoodieQA: 一个用于细粒度理解中国美食文化的多模态数据集

TL;DR对中国各地区的食物文化进行分析,创建了 FoodieQA 数据集,包括图像和文字描述,并评估了视觉 - 语言模型和大型语言模型的表现,发现在多图像和单图像问答任务上,开源的视觉 - 语言模型仍然存在较大的差距,而理解食物文化及其文化含义仍然是一个具有挑战性且尚未深入探索的方向。