Sep, 2023
通过下采样声学表示进行端到端语音识别的纯文本领域自适应
Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation
Jiaxu Zhu, Weinan Tong, Yaoxun Xu, Changhe Song, Zhiyong Wu...
TL;DR本研究旨在通过引入一个连续的整合 - 发火 (CIF) 模块,从而实现将语音和文本这两种形式的信息映射到共享表示空间,以提高自动语音识别 (ASR) 在新领域中的性能。通过将一个具有一致语音标记长度的 CIF 模块与基于文本的 ASR 模型相结合,我们成功实现了统一的双模态表示学习,从而允许使用目标领域的纯文本数据进行域适应。实验结果表明了该方法在新领域数据上的有效性。