May, 2024

大型视觉语言模型的语境情感识别

TL;DR在这篇研究论文中,我们使用最近的大型视觉语言模型来探讨两种主要方法:图像字幕生成与仅使用语言的 LLM,以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context(EMOTIC)数据集上评估这些方法,并展示出即使在小型数据集上进行微调,视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。