Oct, 2023

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

TL;DR通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。