Sep, 2023

通过下采样声学表示进行端到端语音识别的纯文本领域自适应

TL;DR本研究旨在通过引入一个连续的整合 - 发火 (CIF) 模块,从而实现将语音和文本这两种形式的信息映射到共享表示空间,以提高自动语音识别 (ASR) 在新领域中的性能。通过将一个具有一致语音标记长度的 CIF 模块与基于文本的 ASR 模型相结合,我们成功实现了统一的双模态表示学习,从而允许使用目标领域的纯文本数据进行域适应。实验结果表明了该方法在新领域数据上的有效性。