EMNLPOct, 2020

多模式语音识别及非结构化语音掩蔽

TL;DR本篇论文研究了在嘈杂的情况下,如何通过视觉上下文提升语音识别的准确性,并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力,结论显示在一定程度上可提升 ASR 系统的能力。