Apr, 2022

使用主动说话者注意力模块的端到端多讲话人音频 - 视觉自动语音识别

TL;DR本文提出了一种新的终端对终端的音视频多人说话识别方法 - 视觉上下文注意力模型 (VCAM),使用可用的视频信息将解码的文本分配给多个可见面孔中的一个,具有解决多人说话建模方法中的标签歧义问题,该方法实现为基于 Transformer-Transducer 的终端到终端模型,并使用来自 YouTube 视频的两个说话者音频 - 视觉重叠话语数据集进行评估,表明 VCAM 模型相对于之前报告的仅音频和音视频多人说话识别系统提高了性能。