关键词mel-frequency cepstral coefficients
搜索结果 - 7
- MFAAN:利用多特征真实性网络揭示音频深度伪造
为了解决深度伪造音频内容的问题,该研究引入了多特征音频真实性网络 (MFAAN),该网络结构利用 Mel 频率倒谱系数 (MFCC)、线性频率倒谱系数 (LFCC) 和色度短时傅立叶变换 (Chroma-STFT) 等多种音频表示方法,通过 - 通过声门源特征分析和检测病理性声音
自动检测声音病理学能够客观评估和较早干预诊断。本研究对声门源特征进行系统分析,考察其在声音病理学检测中的有效性。实验结果显示,声门源特征与传统的 MFCC 和 PLP 特征相比,具有可比或更好的声音病理学检测性能,并且当与传统的 MFCC - 铁路车辆轴承故障检测的新特征
本文提出了一种使用音频信号处理中的 Mel 频率倒谱系数和振幅调制谱中提取的特征来检测轴承故障的新方法,并使用只有健康轴承的数据训练一种 One-class 支持向量机来应对数据不平衡问题,从而在高度具有挑战性的场景下评估了该方法。
- 基于情感因果关系的门控多尺度时间卷积网络用于语音情感识别
本文提出一种 Gated Multi-scale Temporal Convolutional Network (GM-TCNet) 情感因果表示学习模型,通过构建多尺度感受野的情感因果表示学习模块来捕捉情感动态,并利用跳跃连接融合不同门卷 - MMComParE 2022 口吃子挑战赛的端对端和自监督学习
本文提出了基于自监督学习的语音嵌入系统,通过对预先训练的 Wav2Vec2.0 模型进行嵌入提取,结合 Mel 频率倒谱系数 (MFCC) 特征进行评估,在计算语言学竞赛中达到了较好的结果,相对于 DeepSpectrum 挑战基线提高了 - 改善病理性语音障碍学习的连续语音
本研究提出一种新方法,使用连续的普通话语音而不是单个元音,来区分四种常见的声音障碍,并使用离散余弦变换和双向 LSTM 网络,通过大型数据库的实验表明,该方法相对于使用单个元音的系统有显著的准确度和召回率提高以及提高了系统学习声音障碍的能力 - SYSU 2015 Interspeech 自动说话人验证欺骗和对策竞赛系统
提出了一种基于多种 i-vector 子系统的得分融合方法,通过采用声学水平的 Mel 频率倒谱系数(MFCC)特征、相位水平的修改群延迟倒谱系数(MGDCC)和语音学水平的音素后验概率(PPP)串联特征来检测并对抗欺骗性语音信号。