减少端到端语种混淆的自动语音识别
本文研究提出一种简单而有效的数据增强方法,以在缺乏大量语料库的情况下训练多语言系统,进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型,实现在跨句子语言转换方面的提高。
Oct, 2022
本文通过混合 CTC-Attention 模型,不同建模单元,语言识别以及不同解码策略等对汉英混合口语识别任务进行了研究,并在 SEAME 语音库上实现了 34.24% 的混淆误差率。
Oct, 2018
该论文以声音识别为例,探讨行话中的语言混杂现象,并提出一种多任务学习的解决方案,并针对代码切换情境下的数据稀疏问题提出了词汇扩展方法,并在 SEAME 数据上进行了实验验证。
Nov, 2018
通过引入一种新的解缠损失函数,本研究专注于改进端到端自动语音识别(ASR)的声学编码器,以解决代码切换现象带来的挑战,并通过实验验证了该方法的优越性。
Feb, 2024
本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法,以及探索从 ASR 模型中提取混合文本的不同方法,并通过比较混杂度和其他不同指标(如 WER)的结果与标准的双语文本输出来说明模型的稳健性。
Jun, 2020
本文针对上下文语音识别难以适应 E2E 自动语音识别的问题,提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明,该方法在不改变解码超参数的情况下,有效降低了上下文语音识别的字词错误率,并不影响普通语音识别的表现。
Dec, 2018
本研究探讨了如何针对混杂语音优化基于神经传递器的双语自动语音识别系统,发现半监督训练和合成的混合开关数据可以改善这一系统的性能。同时,我们分析了每个神经传递器编码器对混合开关性能的影响,并在 ASCEND 数据集上评估了我们的英语 / 普通话系统,其混合错误率为 25%,较文献节省 2.1%,同时保持好的单语测试集准确性。
Oct, 2022
本文基于随机词汇替换和等价约束,利用对齐翻译对生成随机合法的混合语言内容进行零样本学习,以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题,实验结果显示,所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER,而采用等价约束的人类评估表明,80% 以上的内容质量足够。
Jan, 2022