Apr, 2024

用常识推理提供更好的语境进行情感理解的 VLLMs

TL;DR利用视觉和大规模语言模型(VLLMs)的开创性能力,我们提出了一种两阶段方法来增强上下文情绪分类,首先利用 VLLMs 生成自然语言描述主体与视觉情境之间的明显情绪,然后将这些描述与图像输入一起用于训练融合文本和视觉特征的基于变换器的结构,在不引入复杂训练方法的情况下显著优于单一模态,并且在 EMOTIC、CAER-S 和 BoLD 三个数据集上达到了与更复杂方法相媲美甚至更高的准确性。