Jan, 2020
LRS2 数据集中重叠语音的音视频识别
Audio-visual Recognition of Overlapped speech for the LRS2 dataset
Jianwei Yu, Shi-Xiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu...
TL;DR本研究探讨了利用视听技术识别重叠的语音信息的三个问题,包括基本体系结构设计,模态融合的建议设计门,以及通过优化的统一的方法来建立 AVSR 系统。实验结果表明,该系统在 LRS2 数据集上的性能超过了传统的语音分离和识别组件的流水线架构,可获得相对于仅音频的基线 LF-MMI DNN 系统高达 29.98% 的字错误率(WER)降低,而采用特征融合技术的 AVSR 系统相对于基准系统进一步提高了 4.89% 的 WER 降低。