语音信号准确共振峰跟踪的时变准闭相位分析
该研究通过使用线性预测方法对现有的数据驱动跟踪器 DeepFormants 进行改进,研究了共振峰跟踪。结果表明,通过使用线性预测模型与数据驱动跟踪器结合,可以提高跟踪器的性能。
Aug, 2023
本文探讨了基于 constant-Q 转换(CQT)的短时语音情感识别(SER),使用 CQT 的低频分辨率优于标准短时傅里叶变换(STFT)的高频分辨率,经过比较分析,使用深度神经网络(DNN)作为后端分类器对基于 STFT 和 CQT 的短期声学特征进行了参数优化和实验,结果表明使用 CQT 的特征优于 STFT 的光谱特征,并且交叉语料库评估实验表明使用 CQT 的系统对于域外训练数据具有更好的泛化能力。
Feb, 2021
本篇论文评估使用自动方法从语音波形中直接检测 GCIs 的效果,比较了五种最先进的 GCI 检测算法,其中 HEP、ZFR、DYPSA、SEDREAMS 和 YAGA 在干净语音上表现最佳,在鲁棒性测试中表现较好,并在语音处理的一个具体应用中显示了 S 的卓越性能。
Dec, 2019
自动检测声音病理学能够客观评估和较早干预诊断。本研究对声门源特征进行系统分析,考察其在声音病理学检测中的有效性。实验结果显示,声门源特征与传统的 MFCC 和 PLP 特征相比,具有可比或更好的声音病理学检测性能,并且当与传统的 MFCC 和 PLP 特征结合时,性能表现最佳。
Sep, 2023
提出了一种新的算法来将有声语音的检测、基频估计和音高跟踪三个子任务集成成一个单一的过程,并通过使用标准度量标准的组合提出了一个无监督语音分类器来实现音素检测。音高值的估计采用混合自相关技术,通过引入前向 - 后向 Kalman 滤波器来平滑音高轮廓。本研究在实验中表明,所提出的方法与当前最先进的音高检测算法相比具有明显的优势。
Mar, 2021
本文提出了一个框架,用于有效实现可反演信号变换,允许非均匀和特别是非线性频率分辨率,通过应用具有自适应性的非平稳 Gabor 矩形,实现了频率的不均匀性。其中详细描述了完全可逆的常量 Q 变换的实现,通过帧理论和基于 FFT 的处理,克服了经典常量 Q 变换实现的计算效率低和无反演性不足的问题,并以实验为例说明了该方法的适用性。
Sep, 2012
本文提出了一种名为 PhasePerturbation 的新型语音数据增强方法,利用动态的语音相位谱操作,通过随机化、频率遮蔽和时间遮蔽来增加语音数据的多样性。在 wav2vec2.0 预训练的 ASR 模型上,通过将模型与经过 PhasePerturbation 增强的 TIMIT 语料进行微调,实验证明相比没有增强操作的基准模型,词错误率(WER)相对降低了 10.9%。此外,通过结合基于振幅谱的增强方法 Vocal Tract Length Perturbation(VTLP)和 SpecAug,所提出的方法在 WER 上进一步提升了 12.9%和 15.9%,凸显了 PhasePerturbation 改进当前基于振幅谱的增强方法的能力。
Dec, 2023
本研究提出了一种新颖的说话者去识别方法,采用简单的共振峰偏移和基于函数数据分析的 f0 轨迹操作,可以在音素可控的方式下掩盖潜在的识别音调特征,提高了基于共振峰的语音匿名度最多达 25%。
Mar, 2022
本文研究了各种广义互相关相位变换(GCC-PHAT)方法在一对近距离麦克风中的准确性。我们探讨了基于插值的方法,还提出了一种基于奇异值分解(SVD)的方法。所有研究方法均采用 C 代码实现,并测量执行时间以确定哪种方法最适合于低成本嵌入式硬件上的实时应用。
Nov, 2018
本文介绍了一种新的方法,通过使用复数值神经网络处理输入音频的 CQT 频域表示,结合了幅度谱图和原始音频处理方法的优点,既保留了相位信息又可使用可解释人工智能方法,结果表明该方法在 “野外” 反欺诈数据集上优于先前的方法,并通过可解释人工智能解释结果,剔除研究证明该模型已学会使用相位信息来检测声音伪造。
Aug, 2023