Apr, 2024

对齐之后融合:通过多模态编码器来提高人脸 - 声音相关性学习

TL;DR利用对比学习和二分类问题,通过多模态编码器学习内嵌信息,引入有效的配对选择方法,提高语音 - 面部关联的匹配、验证和检索任务的学习结果。