Nov, 2023

身份验证任务中音频 - 视觉融合架构的行为分析

TL;DR我们训练了一个身份验证架构,并评估了该模型合并音频和视觉表示的部分的修改,包括在要比较的两个示例中的任何一个输入缺失的情况下。我们在 Voxceleb1-E 测试集上报告的结果表明,在全模态设置和一个单模态缺失时,对输出嵌入进行平均可以改善错误率,并更充分地利用嵌入空间,这比使用共享层的系统更具优势,并讨论了可能的原因。