Dec, 2021

带自监督学习的多模态感知注意力网络用于音视说话者追踪

TL;DR本文提出了一种利用声音和视觉模态进行讲话者跟踪的多模态感知跟踪器(MPT),其中包括使用基于空时全局相干字段(stGCF)的声学地图进行异构信号融合,引入多模态感知注意力网络来导出可靠性和效益的知觉权重,以及使用跨模态自我监督学习方法模拟不同模态之间的互补性和一致性。实验结果表明,所提出的 MPT 在标准数据集和遮挡数据集上分别达到了 98.6% 和 78.3% 的跟踪精度,证明了其在不利条件下的鲁棒性优于目前的最新技术。