Jan, 2020

LRS2 数据集中重叠语音的音视频识别

TL;DR本研究探讨了利用视听技术识别重叠的语音信息的三个问题,包括基本体系结构设计,模态融合的建议设计门,以及通过优化的统一的方法来建立 AVSR 系统。实验结果表明,该系统在 LRS2 数据集上的性能超过了传统的语音分离和识别组件的流水线架构,可获得相对于仅音频的基线 LF-MMI DNN 系统高达 29.98% 的字错误率(WER)降低,而采用特征融合技术的 AVSR 系统相对于基准系统进一步提高了 4.89% 的 WER 降低。