用于图像情绪预测的多分支网络
本文提出了一个名为 “多层依赖注意力网络”(MDAN)的深度学习框架,通过融合全局学习和局部学习优化网络,采用底层朴素贝叶斯分类器、自底而上的分类器和自顶而下的情感语义映射分类器来消除视觉线索和图片表达情感之间的 “情感差距”,同时设计两种注意力模块以恰当地提取和利用通道相关性和空间注意力,相比现有技术在 6 个视觉情感分析基准上取得了新的最优性能。
Mar, 2022
本研究聚焦于视觉图像的对象元素和背景的语义信息,通过建立基于深度前馈神经网络的情感模型,实现对视觉图像情感值的连续预测,证实了此预测模型的有效性。
May, 2017
本研究提出一个多元感情图像数据集 EMOTIC,并通过 bounding box 、场景语境等方法训练多种卷积神经网络模型,结果表明场景语境对自动识别情感状态提供了重要信息,为情感识别领域的研究提供了新思路。
Mar, 2020
本文介绍我们在第四届野外情感行为分析竞赛中提交的方法,将提供的面部和面部周围背景的完整信息用于多任务学习挑战,使用 InceptionNet V3 模型提取深度特征,从而得出对情绪的分类和评估
Jul, 2022
利用视觉和大规模语言模型(VLLMs)的开创性能力,我们提出了一种两阶段方法来增强上下文情绪分类,首先利用 VLLMs 生成自然语言描述主体与视觉情境之间的明显情绪,然后将这些描述与图像输入一起用于训练融合文本和视觉特征的基于变换器的结构,在不引入复杂训练方法的情况下显著优于单一模态,并且在 EMOTIC、CAER-S 和 BoLD 三个数据集上达到了与更复杂方法相媲美甚至更高的准确性。
Apr, 2024
在这篇研究论文中,我们使用最近的大型视觉语言模型来探讨两种主要方法:图像字幕生成与仅使用语言的 LLM,以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context(EMOTIC)数据集上评估这些方法,并展示出即使在小型数据集上进行微调,视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。
May, 2024
本研究探讨了环境因素,特别是场景和物体如何通过身体语言影响情绪表达。为此,我们引入了一种名为 BEE-NET 的新型多流深度卷积神经网络,并提出了一种新的后期融合策略,在学习过程中将场所和物体的元信息作为先验知识纳入考虑。实验结果表明,我们的深度模型在情感识别领域取得了显著的突破,超过了当前最先进的技术,情绪识别得分达到了 66.33%。
Feb, 2024
提出了一种利用场景和语义特征的多模态情绪识别方法,通过结合人物特征和环境上下文,使用 EmbraceNet 提取图像特征,并在 EMOTIC 数据集上验证了方法的有效性。
Aug, 2023
本文提出了一种用于通过大脑活动数据进行情绪识别的新型多视图、多标签的混合模型,可以同时学习表达性的神经表示并多元预测情绪状态,通过实验表明该方法具有较高的识别准确率。
Oct, 2022