构建中国文化的镜头:用于理解中国谐音绘画艺术的多模态数据集
我们提出了一个新的基准,用于评估多模态大型语言模型在谜题上的表现。该数据集包含 333 个原始的图像类文字游戏示例,包括电影、作曲家、主要城市和食物等 13 个类别。为了在评估被提示的单词或短语的基准上取得良好的性能,模型必须结合图像识别和字符串处理,进行假设检验、多步推理和对人类认知的理解,从而进行复杂的多模态能力评估。我们发现,专有模型如 GPT-4V 和 Gemini Pro 明显优于所有其他测试模型。然而,即使是最好的模型最终的准确率也只有 24%,突显了在推理方面需要重大改进。此外,模型很少理解谜题的所有部分,几乎无法事后解释正确答案。因此,我们的基准测试可以用于识别多模态大型语言模型在知识和推理方面的主要不足之处。
Jan, 2024
视觉 - 语言模型(VLMs)可以通过多种语言回答有关图像的问题。然而,除了语言,文化也影响我们的观察方式。在这项研究中,我们展示了一项新颖的调查,证明并定位了 VLMs 在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估,我们发现 VLMs 在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平 VLMs 的多样语言混合的重要性,即使是在英语推理的情况下。此外,虽然使用目标文化语言进行提示可以减少偏见,但并不能替代构建更具世界语言代表性的人工智能。
Jun, 2024
通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集,揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距,并发现在中国文化方面缺乏知识。此外,通过在中文相关视觉 - 语言数据集上进行微调,有效提升了视觉 - 语言模型对中国文化的理解。
Jul, 2024
通过半自动化流程,并结合外部知识检索,构建了适应韩国文化的数据集,从而有效评估了文化相关的视觉 - 语言模型,结果显示开源模型在理解韩国文化方面明显落后于专有模型,并提供了各种文化方面的 VLM 性能分析和未来改进方向的建议。
Jun, 2024
本文介绍了一种新的框架,用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型,并发现它们大多数难以展示出概念理解。然而,我们发现交叉注意力可以帮助学习概念理解,并提出了一种新的微调技术,以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。
Apr, 2023
我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异,以及不同语言训练的模型在对应语言的测试数据上表现最佳,而在多语言内容上训练的模型在所有评估数据组合上都表现良好,这对于改善图像理解的多样化感知具有重要意义。
Oct, 2023
通过引入 GlobalRG 基准,涵盖了检索跨文化图像的普遍概念和在图像中定位文化特定概念这两个具有挑战性的任务,我们评估了各种模型在不同文化背景下的表现,并强调了在视觉语言模型中增强多元文化理解的必要性。
Jun, 2024
最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素:用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现,紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此,我们提出了 Muffin 框架,直接使用预训练的视觉语言模型作为视觉信号的提供者。此外,我们还提出了 UniMM-Chat 数据集,探索了数据集之间的补充关系,生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能,显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。
Oct, 2023
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
该研究探讨了视觉 - 语言模型中的文化和社会经济多样性,研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象,并提出了一种改进方法以提高文化多样性。
May, 2024