Jul, 2022
利用声学情景表征通过音频文本跨模态学习用于会话 ASR
Leveraging Acoustic Contextual Representation by Audio-textual Cross-modal Learning for Conversational ASR
Kun Wei, Yike Zhang, Sining Sun, Lei Xie, Long Ma
TL;DR该研究提出了一种音频 - 文本交叉模态表示提取器,通过 attention 机制,将上下文文本表示作为上下文提供给 ASR 解码器,有效地提高了智能语音识别的性能。