BriefGPT.xyz
Ask
alpha
关键词
raw audio
搜索结果 - 5
复数值神经网络用于语音反欺骗
本文介绍了一种新的方法,通过使用复数值神经网络处理输入音频的 CQT 频域表示,结合了幅度谱图和原始音频处理方法的优点,既保留了相位信息又可使用可解释人工智能方法,结果表明该方法在 “野外” 反欺诈数据集上优于先前的方法,并通过可解释人工智
→
PDF
10 months ago
Jukebox:音乐生成模型
Jukebox 是一款基于 VQ-VAE 和 Transformer 的原始音频领域音乐生成模型,可以生成高保真度、多样化且长达数分钟的音乐,在音乐和声音风格上可以受到艺术家和类型的影响,并且根据未对齐的歌词进行调整,其生成音乐样本、模型权
→
PDF
4 years ago
ICML
WaveFlow: 面向原始音频的紧凑流模型
本文介绍了一种小型的 WaveFlow 产生式流,可以训练原始音频并合成高保真语音,只需几个步骤即可生成成千上万个时间步长的波形,并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。
PDF
5 years ago
wav2vec: 语音识别的无监督预训练
本研究通过对原始音频进行特征学习,探索无监督的语音识别预训练方法,在大量无标注音频数据上进行训练,结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中,仅使用少量已识别数据,我们的方法成功将 WER 从传统的 log-mel
→
PDF
5 years ago
使用卷积神经网络自动识别多音乐器中的乐器
本文介绍了利用卷积神经网络进行自动乐器识别的应用。在这个模型中,特征提取和学习算法是通过端到端方式一起训练的。通过基于原始音频训练的卷积神经网络所取得的结果表明,其性能优于那些依赖手工制作特征的传统方法。
PDF
9 years ago
Prev
Next