结合声学和调制谱图的基于注意力 LSTM 系统用于语音可懂性水平分类

Feb, 2024

结合声学和调制谱图的基于注意力 LSTM 系统用于语音可懂性水平分类

On combining acoustic and modulation spectrograms in an attention LSTM-based system for speech intelligibility level classification

PDF

Ascensión Gallardo-Antolín, Juan M. Montero

TL;DR本研究提出了基于 LSTM 网络的注意力机制来预测语音可懂度级别，并探讨了使用每帧调制谱来作为输入特征以及不同的融合策略（后期融合和加权池化融合）对语音可懂度预测任务的效果，结果表明 LSTM 网络可以有效地建模调制谱序列，而后期融合和加权池化融合的策略能够提供更好的结果

Abstract

speech intelligibility can be affected by multiple factors, such as noisy environments, channel distortions or physiological issues. In this work, we deal with the problem of automatic prediction of the speech intelligi

speech intelligibility modulation spectrograms lstm networks late fusion weighted-pooling fusion

发现论文，激发创造

基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

该研究致力于开发一种自动非侵入式系统，用于预测语音可懂度水平，研究结果显示采用长期短期记忆（LSTM）网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制，能够确定任务中更为相关的帧，从而优于基于支持向量机（SVM）和手工特征、基于均值池化的 LSTM 系统。

Feb, 2024

基于 CWT 的语音合成中的 Mel 频谱增强范式

基于连续小波变换的 Mel 频谱增强范式可提高合成语音的质量，与基线模型相比，该增强范式在自回归和非自回归语音系统中实验结果表明合成语音的 MOS 得分提高了 0.14 和 0.09，为增强范式广泛适用性提供了验证。

Jun, 2024

使用多跳注意力机制的语音情感识别

该论文提出了一种利用音频和文本信息的语音情感分类方法，使用双向 LSTM 和多跳注意力机制，在 IEMOCAP 数据集上，相对于现有技术，其在加权准确率上提高了 6.5% 的性能。

Apr, 2019

高效单声道语音增强的谱注意力融合

在语音增强领域，我们提出了一种称为频谱注意力融合的方法，通过使用卷积模块替换自注意力层，提高了模型的计算效率，从而实现了与先进模型相媲美的结果，但参数规模更小（0.58M）的目标。

Aug, 2023

多模态 LSTM 的发言人识别技术 - 看、听、学习

本文提出了一种新颖的多模态长短时记忆结构 (MLSTM)，它可以无缝整合来自视频序列的视觉和听觉信息，建模人脸和声音之间的时间依赖关系，从而提高语音识别的鲁棒性和识别精度。

Feb, 2016

基于注意力机制的视听融合在强鲁棒性自动语音识别中的应用

本文提出了一种音频视觉融合策略，该策略不仅可以超越简单的特征连接，而且可以自动地对齐两种方式，具有提高语音识别准确性的增强表示，特别适合干扰噪声环境中的识别任务，并且可以推广到许多涉及相关模态的多模态任务中。

Sep, 2018

在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图

该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析，提出了一个新的架构，包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器（MLP）分类器，研究有效的数据增强技术建立了丰富的混合特征映射，最终在 Berlin EMO-DB 数据库上取得了 92.79% 的测试准确率，结果优于之前使用 CNN-VGG16 的研究。

Dec, 2023

通过强健的全局特征提取增强自动调制识别

自动调制识别在无线通信系统中起着关键作用，我们提出了一种名为 TLDNN 的混合深度框架，将 Transformer 和 LSTM 的结构相结合，通过自注意机制建模信号序列的全局相关性以增强时间依赖性的捕捉，并采用段替换（SS）的数据增强策略来提高模型对调制相关特征的鲁棒性，实验结果表明我们的方法在广泛使用的数据集上取得了最先进的性能并在复杂性方面具有显著优势。

Jan, 2024

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

通过在 Mel 频谱预测上调节 WaveNet，进行自然语音合成

该论文阐述了 Tacotron 2 的神经网络框架，该框架可以从文本中直接合成语音，其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成，能够实现与专业录制的语音相当的平均意见分数 (MOS)。

Dec, 2017