raw audio | BriefGPT - AI 论文速递

关键词raw audio

搜索结果 - 5

复数值神经网络用于语音反欺骗
本文介绍了一种新的方法，通过使用复数值神经网络处理输入音频的 CQT 频域表示，结合了幅度谱图和原始音频处理方法的优点，既保留了相位信息又可使用可解释人工智能方法，结果表明该方法在 “野外” 反欺诈数据集上优于先前的方法，并通过可解释人工智
PDF10 months ago
Jukebox：音乐生成模型
Jukebox 是一款基于 VQ-VAE 和 Transformer 的原始音频领域音乐生成模型，可以生成高保真度、多样化且长达数分钟的音乐，在音乐和声音风格上可以受到艺术家和类型的影响，并且根据未对齐的歌词进行调整，其生成音乐样本、模型权
PDF4 years ago
ICMLWaveFlow: 面向原始音频的紧凑流模型
本文介绍了一种小型的 WaveFlow 产生式流，可以训练原始音频并合成高保真语音，只需几个步骤即可生成成千上万个时间步长的波形，并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。
PDF5 years ago
wav2vec: 语音识别的无监督预训练
本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel
PDF5 years ago
使用卷积神经网络自动识别多音乐器中的乐器
本文介绍了利用卷积神经网络进行自动乐器识别的应用。在这个模型中，特征提取和学习算法是通过端到端方式一起训练的。通过基于原始音频训练的卷积神经网络所取得的结果表明，其性能优于那些依赖手工制作特征的传统方法。
PDF9 years ago