phonetic posteriorgrams | BriefGPT

关键词phonetic posteriorgrams

搜索结果 - 5

ALO-VC：任意低延迟单次语音转换
本文提出了基于语音后验图的非并行低延迟单次语音转换方法 ALO-VC，采用预训练说话人编码器、语调预测器和位置编码器结合的混合信号处理和机器学习管道，提供两个系统版本，均可在单个 CPU 核心上部署并达到与非因果基线系统相当的性能。
PDFa year ago
BERT-LID: 利用 BERT 提升口语语言识别
我们提出了一种基于 BERT 的语言识别系统，通过提取从前端语音识别器导出的语音学后向图（PPG）作为输入，可以提高较短语音段的语言识别表现，该模型可以提高长语音段识别的基准准确率约 6.5％，提高短语音段识别的基准准确率约 19.9％，表
PDF2 years ago
DiffSVC：一种用于歌声转换的扩散概率模型
本文提出 DiffSVC，一种基于去噪扩散概率模型的 SVC 系统，在该系统中，使用语音后验谱图（PPG）等特征进行内容建模，并辅助使用基频和响度特征来辅助去噪。实验表明，DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC
PDF3 years ago
基于 PPG 的对抗性表示学习唱声转换
该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型，实现了稳定的歌唱声音转换，并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果，并在客观和主观实验中证明了该方法在音色
PDF4 years ago
神经声码器的多目标情感语音转换
本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换，同时使用包含丰富语言信息的音素后验概率作为辅助输入特征，提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC)，并将条件 WaveNet
PDF4 years ago