基于神经变换器的巴西葡萄牙语语音声学模型

Dec, 2023

基于神经变换器的巴西葡萄牙语语音声学模型

Acoustic models of Brazilian Portuguese Speech based on Neural Transformers

Marcelo Matheus Gauy, Marcelo Finger

TL;DR通过 Transformer 神经网络构建了一个训练于大量巴西葡萄牙语言音资料上的声学模型，使用预训练技术细调该模型并在呼吸不足检测、性别识别和年龄组分类三个任务中表现出显著提升，尤其在呼吸不足检测方面取得了迄今为止最好的结果，显示出这种声学模型作为语音生物标志物研究的有希望工具。此外，性别识别的性能与英文的最先进模型相媲美。

Abstract

An acoustic model, trained on a significant amount of unlabeled data, consists of a self-supervised learned speech representation useful for solving downstream tasks, perhaps after a fine-tuning of the model in the respective downstream task. In this work, we build an →

acoustic model brazilian portuguese speech transformer neural network respiratory insufficiency detection speech-as-biomarker approach

发现论文，激发创造

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

Transformer 在行动：Transformer 基于的大规模语音识别应用中的声学模型比较研究

本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异，介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明，Emformer 在低延迟语音助手任务中有 24％至 26％的相对单词错误率降低，并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。

Oct, 2020

基于 Transformer 的混合语音识别声学建模

本文提出并评估了基于 transformer 的声学模型在混合语音识别中的应用。通过讨论不同的建模选择，包括各种位置嵌入方法及迭代损失等，我们证明了在 Librispeech 基准测试中使用 transformer 模型相比其他模型性能更优越，且结合神经网络进行二次评分，我们的方法可以达到最先进的结果。

Oct, 2019

语音情感分析中的预训练模型表示及其对噪声的鲁棒性

研究了预训练模型表示在情感语音识别中的应用，探讨了情感维度的表示方式，发现情感的激活度和支配力主要依赖于声学信息，而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别，改进了情感估计中的准确度，发现词汇表示比声学表示更具有鲁棒性，并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。

Mar, 2023

数据驱动语音增强方法自动文献综述的实验

本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研，评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性，尽管自动化文献调研在声学领域具有巨大潜力，但仍需要改进以更清晰准确地回答技术问题。

Oct, 2023

端到端自动语音识别：从受监督学习到半监督学习与现代架构

本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法，在标准数据集 LibriSpeech 上，通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明，半监督训练可以改善所有架构和损失函数的模型，并在它们之间缩小性能差距，在标准监督学习设置下，获得了端到端声学模型的最新技术水平，并且半监督训练取得了新的绝对技术水平。此外，文章研究了利用不同数量的未标记音频的效果，并提出了几种评估未标记音频特性的方法，证明使用更多的音频进行训练能够减少对外部语言模型的依赖。

Nov, 2019

自然语言预训练模型在自动语音评估语音障碍中的解释

训练和比较两种配置下的音频频谱变换器，用于语音障碍检测；应用注意力回传方法生成模型相关性图，分析模型在不同条件下的预测方式，证明随着模型微调，注意力的扩散减少，重点集中在特定音素区域。

Jun, 2024

用 Transformer Albertina PT-* 推进葡萄牙语的神经编码

为促进葡萄牙语的神经编码和数字化时代技术准备，我们开发了一种名为 Albertina PT-* 的基于 Transformer 的编码器，并在欧洲葡萄牙语和巴西葡萄牙语方言的领域设立了最先进的技术水平，在借鉴 DeBERTa 强大模型的基础上，使用了葡萄牙语数据集进行了预训练。我们免费分发 Albertina PT-PT 和 PT-BR 并采用最宽松的许可证，好让它们能够在便携的硬件设备上运行，以推动对葡萄牙语言技术的研究和创新。

May, 2023

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

音频 Transformer 模型听到了什么？探究语言交付及其结构的声学表示

通过比较 Mockingjay 和 wave2vec2.0 这两种音频转换模型、对其语言传递和结构特征、音频、流畅性和发音特征、文本表面、语法和语义特征的理解，最终发现语音编码中的音频转换模型在语音理解方面取得了很好的效果，类似于基于 BERT 的转换模型。

Jan, 2021