- 填补空缺!结合自监督表示学习与神经声音合成实现语音修复
使用语音自监督学习模型进行语音修复任务时,选择冻结一个模型并微调另一个模型以更好地适应单一或多说话者数据,提供了有效的信号重建策略。
- PeriodGrad: 基于扩散概率模型的音调可控神经声码器
基于去噪扩散概率模型(DDPM)的神经声码器在辅助条件信号中引入显式周期信号,以准确捕捉语音波形的周期结构,改善音质和提供更好的音高控制。
- SpecDiff-GAN: 音频与音乐合成的频谱形状噪声扩散生成对抗网络
SpecDiff-GAN 是一种基于 HiFi-GAN 的神经声码器,通过高斯分布注入噪声到真实和虚假样本,以提高模型的训练稳定性,并利用频谱形状的噪声分布使鉴别器任务更具挑战性,实验证明该模型在语音和音乐合成方面在音频质量和效率方面相对于 - 2023 年暴雪挑战赛的 IMS Toucan 系统
改进法语文本至音素处理系统,包括同音异形解歧,使用 Conformer 和 Glow 基于规则的音素转谱图,再通过基于 GAN 的神经声码器将谱图转换为最终音波,应用于 Blizzard Challenge 2023。
- 基于流匹配的语音生成预训练
我们展示了一个单一的预训练生成模型可以适应不同的下游任务,并展示了其在语音增强、分离和合成方面的性能优于现有专家模型,为语音生成任务构建了一个基础模型。
- FastFit: 通过多个 STFT 代替 U-Net 编码器,实现实时迭代神经声码器
本文介绍了一种新的神经声码器架构 FastFit, 其使用多个短时傅里叶变换 (STFT) 来替换 U-Net 编码器,从而实现更快的生成速度,而不会牺牲样品质量。通过客观和主观的评估,我们证明了该模型提高了将近两倍的基准迭代声码器的生成速 - 通过合成进行语音增强的自监督学习
本文提出了一种基于去噪声码器的语音增强方法,利用自监督学习获取语音的相关特征,并采用最佳的自监督学习配置,采用对抗训练方式进行声音去噪,最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。
- 面向 SIMD 大小的权重正则化,用于 CPU 上的快速神经语音合成
提出一种权重正则化的方法来加速神经声码器,通过将权重矩阵转换为张量并将权重按组大小对齐,然后计算群 Lasso-like 正则化损失,实现不影响质量的剪枝,并达到比传统方法更快的处理速度。
- 可扩展视频语音合成
本文提出了一种可扩展的视频到语音综合框架,利用自我监督学习的方法,通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形,显着优于以往方法,并在 LRS3 数据集上首次展示令人满意的结果。
- 神经编码器是语音超分辨率的唯一需求
本文提出了一种基于神经声码器的语音超分辨率方法 (NVSR),该方法可以处理各种输入分辨率和上采样比例,其取得了优于当前最先进方法 WSRGlow 和 Nu-wave 的 8% 和 37% 的对数谱距离精度,并且具有显著更好的感知质量。
- EMNLP使用离散化和分解表示的无文本语音情感转换
本研究以口语语音转换为任务,将情感转换问题作为语音翻译任务,使用离散学习表示的语音信号分解,包括语音内容单元、韵律特征、说话人和情感,并使用预测表示生成神经波导器的语音波形来实现对口音内容的翻译,并通过客观和主观实验证明该方法在感知情感和音 - UnivNet: 带多分辨率频谱鉴别器的神经声码器,用于高保真波形生成
该研究提出了一种名为 UnivNet 的神经声码器,利用全频带谱特征作为输入,通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题,并在大量演讲者信息数据集上取得最佳客观和主观结果。
- VocGAN:一种具有分层嵌套对抗网络的高保真实时声码器
本研究提出了一种名为 VocGAN 的高保真实时神经声码器,其在几乎与 MelGAN 相同的速度下,显著提高了输出波形的质量和一致性,利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性,同时应用联合条件和无条件目标,在多个评 - 神经声码器的多目标情感语音转换
本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换,同时使用包含丰富语言信息的音素后验概率作为辅助输入特征,提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC),并将条件 WaveNet - 一种神经编码器,采用分层生成模式的幅度与相位光谱,用于统计参数语音合成
本研究提出了一种名为 HiNet 的神经声码器,其通过分层预测振幅和相位谱从声学特征重建语音波形,包含振幅谱预测器(ASP)、相位谱预测器(PSP)以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外,我们还将生成对抗网络引入到