多语音识别中的代码切换适配器适应
本研究探讨了如何针对混杂语音优化基于神经传递器的双语自动语音识别系统,发现半监督训练和合成的混合开关数据可以改善这一系统的性能。同时,我们分析了每个神经传递器编码器对混合开关性能的影响,并在 ASCEND 数据集上评估了我们的英语 / 普通话系统,其混合错误率为 25%,较文献节省 2.1%,同时保持好的单语测试集准确性。
Oct, 2022
本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法,以及探索从 ASR 模型中提取混合文本的不同方法,并通过比较混杂度和其他不同指标(如 WER)的结果与标准的双语文本输出来说明模型的稳健性。
Jun, 2020
本研究通过比较使用多语种和单语种模型进行语音识别的表现,提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术,取得了印度诸多语言语音识别的较好效果。
Mar, 2022
本研究使用基于 DNN 的混合和 Transformer 的端到端模型构建自动语音识别系统并通过构建系统集成方法来提高识别率,结果表明两种模型相互补充且识别性能都不错。
Aug, 2021
本研究采用自注意力机制,设计了一个大型的多语言端到端语音识别系统,使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现,并与当前最先进的系统进行了比较。结果表明,我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。
May, 2021
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
本文研究语言建模在代表代码切换语言的语境下在自动语音识别(ASR)中所存在的难题,针对三个难点分别提出解决方案:如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷,我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式,并采用一种判别式训练方法,证明其比生成式更加有效。最后,我们探索了多种训练协议,并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。
Oct, 2018
本文提出了一种针对双语混杂文本的语言模型的新方法,即双语言模型,该方法使用单一语言模型的结构来改进标准的双语言模型,并将两个互补的单一语言模型结合在一起,以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性,并证明了我们的模型的鲁棒性,表明在不使用任何外部信息的情况下,在困惑度措施和自动语音识别错误率方面都会显著提高。
Nov, 2017
本篇论文提出了一种适应性激活网络,用于深度学习 ASR 模型的上层,并将不同的激活函数应用于不同的语言,通过交叉语言学习和多语言学习优化模型,达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升,结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。
May, 2022