Mar, 2025
双阶段跨模态网络与动态特征融合用于情感模仿强度估计
Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional
Mimicry Intensity Estimation
TL;DR本研究针对情感模仿强度(EMI)估计中的动态关联建模和多模态时序信号的鲁棒融合问题,提出了一种双阶段跨模态对齐框架。通过改进的CLIP架构构建视觉-文本和音频-文本对比学习网络,并设计时间感知的动态融合模块,实验结果显示,方法在六个情感维度上的平均皮尔逊相关系数达到0.35,超越最佳基线40%。