BriefGPT.xyz
大模型
Ask
alpha
关键词
neural audio codec
搜索结果 - 5
基于音频编解码的语音分离
通过在 NAC 的嵌入空间中进行音频编码器(Codec)的语音分离(SS)任务,我们提出了一种新的模型 Codecformer,在推断过程中实现了 52 倍的 MAC 降低,并且产生了与 Sepformer 云部署相当的分离性能,为在实际场
→
PDF
16 days ago
通过神经音频编解码器和潜在扩散模型实现高质量歌声合成
HiddenSinger 是一个高质量的歌唱声音合成系统,使用神经音频编解码器和潜在扩散模型,解决了模型复杂性和可控性的问题,并在无标签歌声数据集上训练,产生了高品质的歌声合成结果。
PDF
a year ago
SoundStorm: 高效并行音频生成
SoundStorm is a non-autoregressive audio generation model that uses semantic tokens and bidirectional attention to effic
→
PDF
a year ago
NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS
→
PDF
a year ago
AudioLM:一种语言建模方法用于音频生成
AudioLM 是一个高质量的音频生成框架,它通过将输入音频映射为离散令牌序列,并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案,以实现重建质量和长期结构两个目标,并通过大量的音频波形语料库进行了训练,使其可以生成
→
PDF
2 years ago
Prev
Next