Mar, 2024

基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

TL;DR通过视频和音频的预处理,提取视觉和音频特征,并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力,融合预训练的音频和视频模型进行特征提取,实现了较好的 VA 评估性能(简化中文摘要)。