EMO-LLaMA:通过指令调优增强面部情感理解
本研究介绍了一种基于多模态特征和 Transformer 的统一框架,用于情感行为分析和表情识别任务,同时运用数据平衡和增强方法进一步提高模型性能。实验证明,该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。
Mar, 2022
基于大规模FER数据集的广泛实验和实践交叉验证, 本文对多种网络架构进行排名, 并给出了在真实情景中应用深度FER方法的一些推荐。此外, 还讨论了实际FER应用中的潜在道德规范, 隐私问题和法规。
Nov, 2023
创新方法集成了自我监督学习方法MAE-Face和融合注意机制,用于情感分类,通过提取关键面部特征以增强模型性能,特别是在ABAW第六次竞赛中展示,并在Aff-wild2数据集上得到显著验证。
Mar, 2024
面部情感行为分析对于从图像中理解人类的心理状态至关重要。我们引入了面向两个FABA任务的指示遵循数据集,一种同时考虑识别和生成能力的基准FABA-Bench以及一个新的MLLM“EmoLA”。我们通过数据集和基准的实验揭示了面部情感行为的本质和原理,加入面部先验专家模块和低秩适应模块,能够提高性能。EmoLA在我们的FABA-Bench上取得最好的结果,在常用的FABA数据集上与任务特定的最先进模型竞争力强。
Apr, 2024
这篇研究论文介绍了FER-YOLO-Mamba模型,它是一个用于面部表情图像识别和定位的视觉Mamba模型,结合了Mamba和YOLO技术的原理,进一步设计了FER-YOLO-VSS双分支模块,以提高识别性能。
May, 2024
为了解决情感识别中的单模态方法在捕捉真实世界情感表达复杂性方面的局限性,我们提出了MERR数据集和Emotion-LLaMA模型,通过整合音频、视觉和文本输入,显著提高情感识别能力,并在evaluations中取得了优异的成绩。
Jun, 2024
通过引入EmoBench和EmoLLM,基于多模态大型语言模型的多模态情感理解性能得到显著提升,提供了更深入、更细致的人类情感理解,为人机交互、心理健康支持和共情人工智能系统等领域的应用开发提供了可能。
Jun, 2024
本研究针对面部表情识别(FER)领域在从受控实验室环境向复杂现实场景转变过程中所面临的挑战,提供全面的综述。论文系统回顾了静态和动态FER方法,提出了应对主要挑战的新颖思路,并通过分析最新进展和基准表现,突出该领域未来的发展方向与潜在影响。
Aug, 2024
该研究解决了当前面部表情识别(FER)方法在分析面部表情原因方面的不足,提出了一种名为ExpLLM的新方法,结合大型语言模型生成准确的思维链。研究表明,ExpLLM在RAF-DB和AffectNet数据集上的性能优于现有的FER方法,特别是在微表情识别领域显著优于最新的GPT-4o。
Sep, 2024
本研究解决了现有3D面部情感建模中情感类别有限和数据集不足的问题。通过引入广泛的人类情感的“Emo3D”数据集,结合大语言模型生成多样的文本描述,实现对3D面部表情合成的全面评估。研究发现新评估指标Emo3D在视觉-文本一致性和3D面部表情的语义丰富性方面优于传统的均方误差(MSE)指标,具有广泛的应用潜力。
Oct, 2024