通过横向抑制提升预训练语音模型在低资源语言上的性能

Jun, 2023

通过横向抑制提升预训练语音模型在低资源语言上的性能

Towards Improving the Performance of Pre-Trained Speech Models for Low-Resource Languages Through Lateral Inhibition

Andrei-Marius Avram, Răzvan-Alexandru Smădu, Vasile Păiş, Dumitru-Clementin Cercel, Radu Ion...

TL;DR使用來自 Transformer 模型的雙向編碼器表示法，在語言處理方面取得成功後，語音社區也採用了其中的一些開發方法，所以 Wav2Vec 模型被引入來減少取得最新成果所需的數據。基於該認識，本研究通過將精調的密集層替換為受生物過程啟發的側抑制層，提高了預訓練語音模型的性能。我們對羅馬尼亞語，即一種資源較低的語言進行實驗，結果顯示使用側抑制層平均可以減少 12.5% 的字錯誤率，此外，在羅馬尼亞語語音語料庫和 Robin 技術採集語料庫上實現了最新最好成果，分別為 1.78% 和 29.64% 的字錯誤率。

Abstract

With the rise of bidirectional encoder representations from Transformer models in natural language processing, the speech community has adopted some of their development methodologies. Therefore, the wav2vec models

bidirectional encoder representations transformer models wav2vec models speech models lateral inhibition layer

发现论文，激发创造

高效地融合预训练的声学和语言编码器用于低资源语音识别

该论文研究了如何将预训练声学编码器和预训练语言编码器融合到端到端自动语音识别模型中，以提高模型的性能，尤其是在低资源自动语音识别的情境下。实验证明，该方法比其他端到端模型在 15 小时的 CALLHOME 语料库上表现得更好。

Jan, 2021

在低资源条件下调查预训练音频编码器

使用三种最先进的语音编码器，Wav2vec2、WavLM 和 Whisper，对于 7 个语音理解和生成任务在低资源环境下进行了全面的实验，研究结果表明，Whisper 编码器在执行与内容相关的任务时具有最好的性能和收敛速度。

May, 2023

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022

使用迁移学习和语言模型解码改进非母语英语的自动语音识别

在语音识别系统中，使用 native English 训练出的模型在非母语人士的语音识别上表现欠佳。因此，本文对 pre-trained wav2vec 2.0 模型进行多种 L1 和 L2 训练条件的 fine-turning，并引入语言模型解码技术。这两种方法的量化收益及误差分析为改进模型的不同来源提供了数据，并证明了 L2 语音中引入语言模型解码技术的实用性。

Feb, 2022

罗马尼亚跨语言域自适应的端到端唇读

该研究论文研究了视窗学习（或称视觉语音识别）的关键领域，采用各种架构和优化方法对基于罗马尼亚语言数据集的模型进行测试，并通过使用英语和德语数据集的无标签视频来帮助模型学习语言不变特征，进而提出跨语言领域自适应的方法，最终获得了尖端结果，并评估了模型中添加的神经抑制机制的性能。

Oct, 2023

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务，实验结果表明，使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中，能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。

Oct, 2022

贝叶斯 Transformer 语言模型在语音识别中的应用

使用贝叶斯学习框架和变分推断优化，提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。

Feb, 2021

集中力的耳语：通过编码器层优化增强口吃语音分类

近年来，在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法，而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献，解开了 Whisper 在口吃症言语类型分类上的能力，并对较深层编码器的重要性进行了探究。

Nov, 2023

使用部分假设选择实现低延迟序列到序列的语音识别和翻译

本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题，提出了三种延迟降低技术，包括使用单向注意力机制，实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER（相对于离线转换）。同时还探讨了其在低延迟语音翻译上的应用。

May, 2020