Mar, 2025

动态特征融合的双阶段跨模态网络用于情感模仿强度估计

TL;DR本研究针对情感模仿强度(EMI)估计中动态相关建模和多模态信号的稳健融合的挑战,提出了一种双阶段跨模态对齐框架。通过改进的CLIP架构构建视觉-文本和音频-文本对比学习网络,并采用时间感知动态融合模块,显著提高了特征对齐的精细度和抗噪声能力,实验结果显示该方法在情感维度上优于最佳基线40%。