May, 2023

通过声学和语义合作解码重新思考多模态视角下的语音识别

TL;DR该论文提出了一种声学和语义协同解码器 ASRD,可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽,可以防止在训练期间的信息泄漏,并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明,ASRD 可以显著提高 ASR 的准确性。