应用恒 Q 变换的非线性频率扭曲在语音情感识别中的应用

MMFeb, 2021

应用恒 Q 变换的非线性频率扭曲在语音情感识别中的应用

Non-linear frequency warping using constant-Q transformation for speech emotion recognition

Premjeet Singh, Goutam Saha, Md Sahidullah

TL;DR本文探讨了基于 constant-Q 转换（CQT）的短时语音情感识别（SER），使用 CQT 的低频分辨率优于标准短时傅里叶变换（STFT）的高频分辨率，经过比较分析，使用深度神经网络（DNN）作为后端分类器对基于 STFT 和 CQT 的短期声学特征进行了参数优化和实验，结果表明使用 CQT 的特征优于 STFT 的光谱特征，并且交叉语料库评估实验表明使用 CQT 的系统对于域外训练数据具有更好的泛化能力。

Abstract

In this work, we explore the constant-q transform (CQT) for speech emotion recognition (SER). The CQT-based time-frequency analysis provides variable spectro-temporal resolution with higher frequency resolution at lower frequencies. Since lower-frequency regions of speech signal contai

constant-q transform speech emotion recognition spectral features deep neural network generalization

发现论文，激发创造

可逆实时常 Q 变换的框架

本文提出了一个框架，用于有效实现可反演信号变换，允许非均匀和特别是非线性频率分辨率，通过应用具有自适应性的非平稳 Gabor 矩形，实现了频率的不均匀性。其中详细描述了完全可逆的常量 Q 变换的实现，通过帧理论和基于 FFT 的处理，克服了经典常量 Q 变换实现的计算效率低和无反演性不足的问题，并以实验为例说明了该方法的适用性。

Sep, 2012

使用卷积神经网络比较环境声音分类的时频表示

本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示，发现 Mel-scaled STFT 方法表现最佳。同时还发现，信号的特点以及转化窗口的大小都对分类结果有影响，2D 卷积神经网络在大多数情况下都比 1D 效果更好。

Jun, 2017

利用时间频率相关性和位置信息学习通过知识迁移增强情感辨识中基于谱图的准确度方法

本研究提出一种通过使用视觉转换器（ViT）关注频谱图中频率（y 轴）与时间（x 轴）之间的关联以及通过知识传递在 ViT 之间进行位置信息的传递的方法，从而提高语音情感识别（SER）的准确性，并通过验证实验结果表明，该方法在加权准确性和浮点运算次数（FLOPs）方面显著优于现有方法，同时提供了高效性和性能改进的有希望的解决方案。

Mar, 2024

使用非平行训练数据转换频谱和声调进行情感语音转换

提出了一种使用循环生成对抗网络和小波变换将非平行语音数据转化为伪对传递来完成情感音频转换，并通过分解基频到 10 个不同时间尺度进行有效的声调转换，实验结果表明，该框架在客观和主观评估中优于基准。

Feb, 2020

基于 CWT 的语音合成中的 Mel 频谱增强范式

基于连续小波变换的 Mel 频谱增强范式可提高合成语音的质量，与基线模型相比，该增强范式在自回归和非自回归语音系统中实验结果表明合成语音的 MOS 得分提高了 0.14 和 0.09，为增强范式广泛适用性提供了验证。

Jun, 2024

在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图

该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析，提出了一个新的架构，包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器（MLP）分类器，研究有效的数据增强技术建立了丰富的混合特征映射，最终在 Berlin EMO-DB 数据库上取得了 92.79% 的测试准确率，结果优于之前使用 CNN-VGG16 的研究。

Dec, 2023

你确定吗？分析面向实际语音情感识别的不确定性量化方法

使用简单的 UQ 方法，结合额外的 OOD 数据训练可以大大改善语音情感识别中因常见挑战如信号污染、语音缺失而导致的不确定性。

Jul, 2024

一种针对音频信号处理的内容自适应可学习时频表示

本文提出了可学习的自适应内容前端用于音频信号处理，通过卷积神经网络学习基础函数和权重优化特定任务，同时提出了一种计算内容自适应可学习时频表示的方法，实现了学习有限冲激响应滤波器组，并根据输入信号的内容通过最优滤波器组传递输出信号。

Mar, 2023

利用 Mel 频率倒谱系数（MFCC）和动态时间规整（DTW）技术的语音识别算法

本文章探讨了数字处理语音信号和语音识别算法的重要性，介绍了特征提取和匹配的数字信号处理方法以及非参数模型和动态时间规整技术的优越性。

Mar, 2010

时间建模至关重要：一种新的面向语音情感识别的时间情感建模方法

本文介绍了一种基于时间的情感建模方法，称为 TIM-Net，它学习来自各种时间尺度的多尺度情境情感表示，并用于提高语音情感识别的性能，实验结果表明 TIM-Net 在六个基准数据集上表现出优异的性能。

Nov, 2022