Jan, 2024

HiCMAE:用于自监督音频 - 视觉情感识别的层次对比遮蔽自编码器

TL;DR提出了一种基于自监督学习的 Hierarchical Contrastive Masked Autoencoder(HiCMAE)框架,通过大规模的自监督预训练提升了音视频情感识别的性能,实验证明 HiCMAE 方法在多个数据集上显著优于现有的有监督和自监督音视频方法。