使用有限领域监督训练自回归语音识别模型
该论文提出了一种新颖的无监督自适应方法,通过学习利用目标领域的无标签数据和标记的领域外数据,合成标记数据,从而解决自然语言处理中对于各种语言和领域进行自然语言处理的需求。
Jun, 2018
本文提出了一种新颖的无监督自回归神经模型,用于学习通用的语音表示,通过无需音素或单词边界标签的方法,从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能,并且我们的分析表明,不同级别的语音信息由我们的模型在不同层次上捕获。
Apr, 2019
本文探讨了语音表示的自监督学习,其中更富含挑战的是那些预训练数据的领域与微调和测试数据的领域不同的情形,试验结果表明在预训练过程中加入目标领域的数据可以显著提高性能。
Apr, 2021
本文介绍了XLS-R,这是一个基于Wav2vec 2.0的用于跨语言语音表示学习的大规模模型,其在128种语言的近半百万小时的公开语音音频数据上进行训练,并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。
Nov, 2021
本文通过在多种低资源语言的未标注同语言音频数据上使用XLSR-53预训练模型进行持续预训练来改进自动语音识别的性能,结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。
Jul, 2022
本文提出了基于源域自监督的 M2DS2 策略用于大型预训练语音模型的微调,并在希腊语 ASR 系统中测试表现,结果显示相比其他基准线算法,M2DS2 在跨域适应中具有显著优势。
Dec, 2022
提出了一种流式的“半自回归”ASR模型,通过在上一个片段中引入先前块中发出的标签作为额外上下文,使用语言模型(LM)子网络,以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误,提高了语音处理的准确性和响应速度。
Sep, 2023
预训练的基于Transformer的语音模型在下游任务(如自动语音识别和口语语言识别)上表现出了令人瞩目的性能,但领域不匹配的问题仍然是一个挑战。为了解决这个问题,我们提出了自监督自适应预训练(SAPT)来适应下游任务的目标领域和语言。我们将SAPT应用于XLSR-128模型,并研究了该方法在SLID任务中的有效性。实验证明,SAPT在FLEURS基准测试中提高了XLSR的性能,尤其是对于少数语言,增益高达40.1%。我们还在少样本学习设置中对四个不同数据集应用了SAPT,结果显示我们的方法提高了XLSR的样本效率。我们的实验证据强有力地证明,通过自监督实现持续自适应可以提升多语言语音模型的下游性能。
Dec, 2023
使用自监督学习作为模型初始化在语音翻译中取得较好结果已经很常见,但也对设备上的部署造成了大量的内存开销。本文通过在离散语音单元上对自监督学习模型进行预训练,从而在有限的语音翻译数据上微调初始化的新模型,并利用离散语音单元预训练来凝结自监督学习模型的知识,从而使得最终模型更加紧凑。我们的方法相比于将离散语音单元用作模型输入,具有短推理流程和对(离散语音单元)分词具有鲁棒性等多个优点。与自动语音识别的预训练相比,它不需要转录,因此适用于资源有限的环境。在CoVoST-2 X-En数据集上的评估结果显示,我们的方法比直接微调自监督学习模型的语音翻译模型具有更高的BLEU得分(提升0.5),且模型大小仅为其一半,并且与自动语音识别的预训练方法相媲美。
Feb, 2024
我们提出了一个无监督适应框架,Self-TAught Recognizer (STAR),它利用无标签数据增强自动语音识别(ASR)系统在噪声和口音等多样的目标领域中的稳健性。STAR基于基于Transformer相关架构和自回归解码的流行语音基础模型(例如Whisper,Canary)进行开发。
May, 2024