Jul, 2022

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

TL;DR该研究提出了一种音频 - 文本交叉模态表示提取器,通过 attention 机制,将上下文文本表示作为上下文提供给 ASR 解码器,有效地提高了智能语音识别的性能。