May, 2023
通过声学和语义合作解码重新思考多模态视角下的语音识别
Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative Decoding
Tian-Hao Zhang, Hai-Bo Qin, Zhi-Hao Lai, Song-Lu Chen, Qi Liu...
TL;DR该论文提出了一种声学和语义协同解码器 ASRD,可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽,可以防止在训练期间的信息泄漏,并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明,ASRD 可以显著提高 ASR 的准确性。