南非呼叫中心音频的多样式训练
本文研究交叉语料库数据补充和数据扩充对匹配条件和失配条件下的语音情感识别模型性能的影响,实验结果表明在失配条件下,使用混合语料库的模型比单一语料库训练更稳定,而且数据扩充对失配条件的提升更为明显。
Jan, 2022
使用多任务学习以及在深度神经网络中使用性别和自然度等辅助任务来改善情感模型的泛化能力,并在理论模拟和实际数据中比较了单任务学习方法,结果表明多任务学习方法显著提高了情感识别性能,尤其是使用性别和自然度都提高了性能。
Aug, 2017
使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练,并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型,分别在印度语种中取得 9.66% ~ 27.24%不等的相对准确率提升。
Jan, 2022
本文提出了一种基于数据扩充的语音翻译方法 M^3ST,通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调,再通过并行输入原始语音序列和原始文本序列进行模型微调,使用 Jensen-Shannon 散度对输出进行正则化,成功在 MuST-C 语音翻译基准上取得了优异的表现,平均 BLEU 得分达到 29.9,超越了当前强基线和取得了最新的最好成果。
Dec, 2022
该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。
May, 2022
本文提出了一种新的端到端自动语音识别(ASR)架构,可以利用符号输入和传统的声学输入进行训练,该架构使用两个单独的编码器:一个用于声学输入,另一个用于符号输入,并共享注意力和解码器参数;通过研究不同的方法将大型文本语料库转换成符号形式进行训练,我们的最佳 MMDA 设置不仅可以在字符错误率(CER)上获得小的改善,而且在基线上,无论是否有外部语言模型,均可以获得 7-10%相对词错误率(WER)的改进。
Mar, 2018
该论文研究了通过使用其他语言的数据和建立多语言系统来处理自动语音识别中数据稀缺性的问题,使用循环神经网络和连接时序分类等技术进行训练,提高了多语言系统的性能,缩小了单语和多语系统之间的差距。
Nov, 2017
采用数据增强和 TTS 技术,对 ASR 的训练数据进行扩充,并通过集成语言模型,在 LibriSpeech 数据上建立 end-to-end 模型,相对于半监督技术的效果更好。
May, 2020