面向大型视觉语言模型的跨语言艺术作品解释

Sep, 2024

面向大型视觉语言模型的跨语言艺术作品解释

Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models

Shintaro Ozaki, Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi...

TL;DR本研究针对大型视觉语言模型（LVLMs）在生成非英语解释时的局限性，提出了一种新的多语言扩展数据集，避免了机器翻译带来的文化偏见问题。研究发现，LVLMs在其他语言上的表现优于英语，并且难以有效利用从英语数据中学习的知识，强调了在多语言环境下进一步优化模型的必要性。

Abstract

As the performance of Large-scale Vision Language Models (LVLMs) improves, they are increasingly capable of responding in multiple languages, and there is an expectation that the demand for explanations generated by LVLMs will grow. However, pre-training of Vision Encoder and the integ

发现论文，激发创造

LVLM-eHub：面向大型视觉语言模型的全面评估基准

本文介绍了一个 LVLM-eHub综合评估平台，使用6种多模态能力定量评估47个标准文本相关视觉基准，并利用在线平台提供用户级评估。结果显示，采用多轮推理评估框架可以缓解对象幻觉问题，为开发有效的LVLM评估流水线提供了启示。

Jun, 2023

ReForm-Eval: 通过任务导向基准的统一重新制定评估大型视觉语言模型

通过ReForm-Eval基准测试，我们对LVLM的各种能力进行了全面的定量评估，发现并分析了现有LVLM的优点和缺点，并确定了潜在的影响因素。

Oct, 2023

大规模视觉语言模型中的艺术作品解释

大规模视觉语言模型（LVLMs）可以从图像和说明中输出文本，展示出在文本生成和理解方面的先进能力。然而，LVLMs在理解解释图像所需的知识、各种知识之间的复杂关系以及如何将这些理解整合到解释中的能力尚未得到明确。针对这个问题，我们提出了一个新任务：艺术品解释生成任务，同时提供其评估数据集和用于定量评估对艺术品知识的理解和利用的度量标准。此任务适用于基于图像描述，基于这样一个前提：LVLMs应具有关于艺术品的预先存在的知识，艺术品往往是被广泛认可并有记录信息的主题。任务由两个部分组成：从图像和艺术品标题生成解释，以及仅使用图像生成解释，从而评估LVLMs基于语言和基于视觉的知识。与此同时，我们还发布了一个训练数据集，使LVLMs可以学习包含有关艺术品的解释。我们的发现表明，LVLMs不仅在整合语言和视觉信息方面存在困难，而且在仅从图像中获取知识方面存在更明显的限制。数据集（ExpArt=Explain Artworks）可在以下链接找到：this https URL。

Feb, 2024

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于LLM中的世界知识。2）在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题，我们提出了MMStar，这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM，以评估它们的多模态能力，并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

通过合成基准评估大型视觉-语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明LVLMs在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本-图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了LVLMs在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

大型视觉-语言模型的视频理解能力的扩展：减少令牌和减少视频

通过利用图像和视频之间的视觉相似性，本文介绍了一种成本效益较高的视频-LVLM模型，通过改进模型结构、引入创新的训练策略，并确定最有效的视频指令数据类型，实现了将基于图像的LVLM模型高效演化为视频-LVLM模型，并在有限资源环境下强调了时间理解的视频培训数据的重要性，提高了模型性能。

Jun, 2024

从我的视角看: 对大型视觉-语言模型在图片理解中的西方文化偏见进行诊断

视觉-语言模型（VLMs）可以通过多种语言回答有关图像的问题。然而，除了语言，文化也影响我们的观察方式。在这项研究中，我们展示了一项新颖的调查，证明并定位了VLMs在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估，我们发现VLMs在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平VLMs的多样语言混合的重要性，即使是在英语推理的情况下。此外，虽然使用目标文化语言进行提示可以减少偏见，但并不能替代构建更具世界语言代表性的人工智能。

Jun, 2024

构建多语言视觉文本数据集揭示视觉语言模型的多语言能力

我们通过模板构建了四种语言的多语言视觉文本数据集，介绍了九项视觉语言任务，并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。

Mar, 2024

LLaVA视觉语言模型为何回复英文图像？

我们发现一种意外的多语言偏差存在于一类流行的多模态视觉语言模型（VLMs）中。将图像包含在LLaVA风格的VLM查询中，无论查询的语言如何，模型返回英文响应的可能性显着增加。本文通过对设计空间进行广泛剔除和模型对图像和文本输入进行机械分析的双重方法，调查了产生此损失的原因。两种方法都表明该问题源于LLaVA模型的语言建模组件。从统计上看，我们发现将语言主干切换为双语语言模型对减少此错误具有最强的效果。从机理上看，我们提供了有力的证据表明视觉输入与文本输入不被映射到类似的空间，并且对中间注意力层进行干预可以减少此偏差。我们的发现为希望了解多模态和多语言空间之间交叉的研究人员和工程师提供了重要的见解，并为开发适用于非英语环境的能力强大且包容性的VLMs的目标做出了贡献。

Jul, 2024

在视觉大模型中，增大编码器是否总是更好？

本研究针对视觉语言模型（VLM）在扩大规模时的性能表现进行探讨。论文指出，仅仅增大编码器的规模并不一定能提升VLM的性能，同时分析了大型语言模型（LLM）的参数规模和数据质量对预训练结果的影响。这些发现对理解VLMs与LLMs之间的规模法则差异具有重要意义。

Aug, 2024