Food-500 Cap：用于评估视觉语言模型的细粒度食物标题基准

MMAug, 2023

Food-500 Cap：用于评估视觉语言模型的细粒度食物标题基准

Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models

Zheng Ma, Mianzhi Pan, Wenhan Wu, Kanzhi Cheng, Jianbing Zhang...

TL;DR我们综合研究了流行的视觉 - 语言模型（VLMs）在特定领域，即食品领域中的能力，并发现它们在特定领域的表现不如在一般领域中的表现好，同时揭示了 VLMs 在处理不同地理区域的食物方面存在严重偏见。

Abstract

vision-language models (vlms) have shown impressive performance in substantial downstream multi-modal tasks. However, only comparing the fine-tuned performance on downstream tasks leads to the poor interpretabili

vision-language models vlms food domain performance differences geographic regions

发现论文，激发创造

FoodieQA: 一个用于细粒度理解中国美食文化的多模态数据集

对中国各地区的食物文化进行分析，创建了 FoodieQA 数据集，包括图像和文字描述，并评估了视觉 - 语言模型和大型语言模型的表现，发现在多图像和单图像问答任务上，开源的视觉 - 语言模型仍然存在较大的差距，而理解食物文化及其文化含义仍然是一个具有挑战性且尚未深入探索的方向。

Jun, 2024

精细视觉语言理解进展的衡量

本文通过对四个具有挑战性的细粒度基准进行实验研究，发现 X-VLM 是最好的模型，同时强调新的损失函数和丰富的数据源对于学习细粒度技能非常重要。

May, 2023

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

通过级联视觉语言模型提升细粒度图像分类

本研究介绍了 CascadeVLM，一种创新的框架，通过有效地利用大型视觉 - 语言模型（LVLMs）内固有的精细知识，克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明，CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型，达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测，从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。

May, 2024

视觉 - 语言模型推动食品成分编译

本文提出了一种基于视觉语言神经网络模型的 UMDFood-VL 模型，并利用最全面的 UMDFood-90k 多模态食品数据库，相较于传统的卷积神经网络（CNNs）和循环神经网络（RNNs），在各种营养价值估计上显著提高，尤其是在食品成分估计上取得了 95％的宏平均 AUCROC，具有一定的实际应用价值。

May, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Aug, 2023

综合、诊断和优化：朝着细粒度的视觉 - 语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是，四个领先的 VLM 在 SPEC 上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

定向领域微调：为特定训练任务定制分开的模态

通过使用 LORA 方法，我们提出了使用特定领域的信息数据集进行模型参数微调的方法，我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。

Jun, 2024

通过使用文本描述使 VLMs 适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉 - 语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含 7 个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024