训练小型情感视觉语言模型以实现对视觉艺术的理解

Mar, 2024

训练小型情感视觉语言模型以实现对视觉艺术的理解

Training A Small Emotional Vision Language Model for Visual Art Comprehension

Jing Zhang, Liang Zheng, Dan Guo, Meng Wang

TL;DR该研究开发了小型视觉语言模型，旨在通过情感建模和输入输出特征对齐，识别视觉艺术作品的情感类别并解释预测结果，实验证明该模型在理解视觉艺术方面的性能明显优于基准模型。

Abstract

This paper develops small vision language models to understand visual art, which, given an art work, aims to identify its emotion category and explain this prediction with natural language. While small models are computationally efficient, their capacity is much limited compared with l

small vision language models emotional vision language model valence-arousal-dominance knowledge affective explanation datasets visual art understanding performance

发现论文，激发创造

大规模视觉语言模型中的艺术作品解释

大规模视觉语言模型（LVLMs）可以从图像和说明中输出文本，展示出在文本生成和理解方面的先进能力。然而，LVLMs 在理解解释图像所需的知识、各种知识之间的复杂关系以及如何将这些理解整合到解释中的能力尚未得到明确。针对这个问题，我们提出了一个新任务：艺术品解释生成任务，同时提供其评估数据集和用于定量评估对艺术品知识的理解和利用的度量标准。此任务适用于基于图像描述，基于这样一个前提：LVLMs 应具有关于艺术品的预先存在的知识，艺术品往往是被广泛认可并有记录信息的主题。任务由两个部分组成：从图像和艺术品标题生成解释，以及仅使用图像生成解释，从而评估 LVLMs 基于语言和基于视觉的知识。与此同时，我们还发布了一个训练数据集，使 LVLMs 可以学习包含有关艺术品的解释。我们的发现表明，LVLMs 不仅在整合语言和视觉信息方面存在困难，而且在仅从图像中获取知识方面存在更明显的限制。数据集（ExpArt=Explain Artworks）可在以下链接找到：this https URL。

Feb, 2024

用常识推理提供更好的语境进行情感理解的 VLLMs

利用视觉和大规模语言模型（VLLMs）的开创性能力，我们提出了一种两阶段方法来增强上下文情绪分类，首先利用 VLLMs 生成自然语言描述主体与视觉情境之间的明显情绪，然后将这些描述与图像输入一起用于训练融合文本和视觉特征的基于变换器的结构，在不引入复杂训练方法的情况下显著优于单一模态，并且在 EMOTIC、CAER-S 和 BoLD 三个数据集上达到了与更复杂方法相媲美甚至更高的准确性。

Apr, 2024

大型视觉语言模型的语境情感识别

在这篇研究论文中，我们使用最近的大型视觉语言模型来探讨两种主要方法：图像字幕生成与仅使用语言的 LLM，以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context（EMOTIC）数据集上评估这些方法，并展示出即使在小型数据集上进行微调，视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。

May, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

艺术情感感知的理解

通过使用图像和文本，我们研究了艺术品对观众情感的影响，并利用多模态分类任务探究了模型的性能表现，发现单模态多模态 transformer 模型比图像模型和双模态模型性能更好。同时，与文本模型 BERT 相比，采用单模态模型 MMBT 能够提高在极端正负情感类别上的性能。

Oct, 2021

LLaVA-Docent: 使用多模式大型语言模型进行指导调整，以支持艺术欣赏教育

该研究探讨了多模态大语言模型（MLLMs）在艺术欣赏教育中的应用，重点是开发了 LLaVA-Docent 模型，它利用了最新的技术进展。通过综合文献回顾和专家咨询，该研究开发了一个强大的数据框架，并利用该框架生成了一个虚拟对话数据集，该数据集为 GPT-4 的训练提供了重要支持。LLaVA-Docent 模型的定量和定性评估揭示了其优点和缺点，研究结果凸显了 LLaVA-Docent 在艺术欣赏教育的可访问性和参与度方面的有效性。通过利用 MLLMs 的潜力，该研究在艺术教育领域做出了重要贡献，提出了一种重新构想艺术欣赏教育方式的新方法。

Feb, 2024

ArtEmis: 艺术视觉语言的情感化

论文提供了一个大型情感分析数据集 (ArtEmis)，用于分析视觉艺术作品与情感体验之间的关联，旨在通过机器学习模型提供情感影响和语言解释之间的详细理解。通过调查人类对于 81,000 幅维基百科艺术作品的情感归属权和解释等信息，对与视觉作品产生情感联系的数据信号进行了精细的建模，进而提出了能够清晰表达视觉刺激的情感并解释其语义和抽象内容的系统。

Jan, 2021

奥卡姆剃刀视角下的小训练集视听情感识别学习

该研究提出了一种轻量级和准确的深度神经模型，通过迁移学习、降维和简单的帧选择机制实现音视频情感识别，取得了情感识别领域 State-of-the-art 的准确率。

Aug, 2018

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023