南非呼叫中心音频的多样式训练

MMFeb, 2022

Multi-style Training for South African Call Centre Audio

Walter Heymans, Marelie H. Davel, Charl van Heerden

TL;DR本研究探讨了多种不同的训练数据风格对深度神经网络隐马尔可夫模型自动语音识别系统的影响，并在南非呼叫中心数据集上进行了验证。

Abstract

Mismatched data is a challenging problem for automatic speech recognition (ASR) systems. One of the most common techniques used to address mismatched data is multi-style training (MTR), a form of →

automatic speech recognition multi-style training data augmentation deep neural network system performance

发现论文，激发创造

跨语料库语音情感识别与数据增强研究

本文研究交叉语料库数据补充和数据扩充对匹配条件和失配条件下的语音情感识别模型性能的影响，实验结果表明在失配条件下，使用混合语料库的模型比单一语料库训练更稳定，而且数据扩充对失配条件的提升更为明显。

Jan, 2022

采用聚合语料库和深度多任务学习实现野外情感识别语音

使用多任务学习以及在深度神经网络中使用性别和自然度等辅助任务来改善情感模型的泛化能力，并在理论模拟和实际数据中比较了单任务学习方法，结果表明多任务学习方法显著提高了情感识别性能，尤其是使用性别和自然度都提高了性能。

Aug, 2017

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型，分别在印度语种中取得 9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

M3ST: 三级混合语音翻译

本文提出了一种基于数据扩充的语音翻译方法 M^3ST，通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调，再通过并行输入原始语音序列和原始文本序列进行模型微调，使用 Jensen-Shannon 散度对输出进行正则化，成功在 MuST-C 语音翻译基准上取得了优异的表现，平均 BLEU 得分达到 29.9，超越了当前强基线和取得了最新的最好成果。

Dec, 2022

多模态半监督学习文本识别

该文章提出了一种半监督的多模态文本识别方法（SemiMTR），通过使用自监督学习和监督学习相结合的单一阶段，将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调，同时在每个模态单独地应用连续性正则化方法进行训练，取得了在多个场景文本识别基准测试上的最新成果。

May, 2022

多模态数据增强用于端到端语音识别

本文提出了一种新的端到端自动语音识别（ASR）架构，可以利用符号输入和传统的声学输入进行训练，该架构使用两个单独的编码器：一个用于声学输入，另一个用于符号输入，并共享注意力和解码器参数；通过研究不同的方法将大型文本语料库转换成符号形式进行训练，我们的最佳 MMDA 设置不仅可以在字符错误率（CER）上获得小的改善，而且在基线上，无论是否有外部语言模型，均可以获得 7-10％相对词错误率（WER）的改进。

Mar, 2018

基于音素、字素和多语言 CTC 的语音识别

该论文研究了通过使用其他语言的数据和建立多语言系统来处理自动语音识别中数据稀缺性的问题，使用循环神经网络和连接时序分类等技术进行训练，提高了多语言系统的性能，缩小了单语和多语系统之间的差距。

Nov, 2017

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020