基于神经变换器的巴西葡萄牙语语音声学模型
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
Nov, 2020
本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异,介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明,Emformer 在低延迟语音助手任务中有 24%至 26%的相对单词错误率降低,并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。
Oct, 2020
本文提出并评估了基于 transformer 的声学模型在混合语音识别中的应用。通过讨论不同的建模选择,包括各种位置嵌入方法及迭代损失等,我们证明了在 Librispeech 基准测试中使用 transformer 模型相比其他模型性能更优越,且结合神经网络进行二次评分,我们的方法可以达到最先进的结果。
Oct, 2019
研究了预训练模型表示在情感语音识别中的应用,探讨了情感维度的表示方式,发现情感的激活度和支配力主要依赖于声学信息,而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别,改进了情感估计中的准确度,发现词汇表示比声学表示更具有鲁棒性,并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。
Mar, 2023
本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研,评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性,尽管自动化文献调研在声学领域具有巨大潜力,但仍需要改进以更清晰准确地回答技术问题。
Oct, 2023
本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法,在标准数据集 LibriSpeech 上,通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明,半监督训练可以改善所有架构和损失函数的模型,并在它们之间缩小性能差距,在标准监督学习设置下,获得了端到端声学模型的最新技术水平,并且半监督训练取得了新的绝对技术水平。此外,文章研究了利用不同数量的未标记音频的效果,并提出了几种评估未标记音频特性的方法,证明使用更多的音频进行训练能够减少对外部语言模型的依赖。
Nov, 2019
训练和比较两种配置下的音频频谱变换器,用于语音障碍检测;应用注意力回传方法生成模型相关性图,分析模型在不同条件下的预测方式,证明随着模型微调,注意力的扩散减少,重点集中在特定音素区域。
Jun, 2024
为促进葡萄牙语的神经编码和数字化时代技术准备,我们开发了一种名为 Albertina PT-* 的基于 Transformer 的编码器,并在欧洲葡萄牙语和巴西葡萄牙语方言的领域设立了最先进的技术水平,在借鉴 DeBERTa 强大模型的基础上,使用了葡萄牙语数据集进行了预训练。我们免费分发 Albertina PT-PT 和 PT-BR 并采用最宽松的许可证,好让它们能够在便携的硬件设备上运行,以推动对葡萄牙语言技术的研究和创新。
May, 2023
本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码,实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率,8 种语言的平均错误率为 33.77%。
Oct, 2022
通过比较 Mockingjay 和 wave2vec2.0 这两种音频转换模型、对其语言传递和结构特征、音频、流畅性和发音特征、文本表面、语法和语义特征的理解,最终发现语音编码中的音频转换模型在语音理解方面取得了很好的效果,类似于基于 BERT 的转换模型。
Jan, 2021