在低资源条件下调查预训练音频编码器
本文针对预训练语音编码器中的表示空间进行了研究,并通过对比自监督学习构建正对,以实现对表示空间的改进,进而在低资源环境下提高了语音处理任务的收敛速度和表现。
Oct, 2022
该论文研究了如何将预训练声学编码器和预训练语言编码器融合到端到端自动语音识别模型中,以提高模型的性能,尤其是在低资源自动语音识别的情境下。实验证明,该方法比其他端到端模型在 15 小时的 CALLHOME 语料库上表现得更好。
Jan, 2021
我们介绍了一个新的零资源代码切换语音基准,旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统,以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器,包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是,尽管我们的结果表明,在代码切换场景中,具有多语言预训练的语音编码器(如 XLSR)优于单语变体(Wav2vec 2.0、HuBERT),但它们的代码切换语言能力仍有很大的改进空间。
Oct, 2023
近年来,在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法,而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献,解开了 Whisper 在口吃症言语类型分类上的能力,并对较深层编码器的重要性进行了探究。
Nov, 2023
使用來自 Transformer 模型的雙向編碼器表示法,在語言處理方面取得成功後,語音社區也採用了其中的一些開發方法,所以 Wav2Vec 模型被引入來減少取得最新成果所需的數據。基於該認識,本研究通過將精調的密集層替換為受生物過程啟發的側抑制層,提高了預訓練語音模型的性能。我們對羅馬尼亞語,即一種資源較低的語言進行實驗,結果顯示使用側抑制層平均可以減少 12.5% 的字錯誤率,此外,在羅馬尼亞語語音語料庫和 Robin 技術採集語料庫上實現了最新最好成果,分別為 1.78% 和 29.64% 的字錯誤率。
Jun, 2023
通过本文研究发现,使用简单的自监督预训练音频模型能够实现与复杂的预训练模型相媲美的推理效率,同时采用自注意力模块与卷积模块相结合的语音转换器能够在 ASR 上取得最先进的性能表现,同时使用较低位权重量化技术的神经网络的简单方法,能够提高效率并防止在量化模块之间传播误差。
Nov, 2023
本研究通过对原始音频进行特征学习,探索无监督的语音识别预训练方法,在大量无标注音频数据上进行训练,结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中,仅使用少量已识别数据,我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36%,最终的 WER 为 2.43%,使用的标注数据量较 Deep Speech 2 少两个数量级。
Apr, 2019
利用音频字向量和自编码器实现跨模态的语音识别,演示了即使缺乏训练数据,也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。
Oct, 2018
本文研究了自监督模型 Wav2vec 及其变体在语音领域的各种下游任务中的应用。通过对其卷积特征编码器进行分析,发现该模型可以表示离散的声学单元,从而实现更加高效的语音识别。
Oct, 2022