快速连接主义说话人适应
本文提出了适应性讲话者神经声码器,用于参数文本到语音(TTS)系统,利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。
Nov, 2018
描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。
Jun, 2018
采用元学习方法对自适应文本到语音合成进行研究,通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型,该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。
Sep, 2018
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021
我们提出了一种基于学习的文本转语音系统,通过使用嵌入空间内的网络来从短的未转录音频样本中捕获新说话者,实现了语音合成系统的极大性能提升,且适用于新的声音,即使从非常短的样本中拟合。
Feb, 2018
使用跨模态网络 VFNet(Voice-Face Disciminative Network)来建立人类语音和面部之间的关系,辅助音视觉说话人识别,相较于 2019 年 NIST SRE 中评估集的基准音视频融合,VFNet 实现了 16.54% 相对的准确率降低。
Aug, 2020
本文概述了基于混合隐马尔可夫模型 / 神经网络系统和端到端神经网络系统的适应性算法,重点关注说话人适应、领域适应和口音适应,并将适应性算法分为嵌入、模型参数适应或数据增强。我们对文献中语音识别适应算法的性能进行了元分析,基于相对误差率减少。
Aug, 2020
本文介绍了几种任意语音转换方法(例如 AUTOVC、AdaINVC 和 FragmentVC)以及一种新方法 S2VC,该方法利用自监督学习(SSL)特征作为源和目标特征进行 VC 模型,该方法的客观评价和主观评价都显示出优于以 PPG 为源特征的模型,表明 SSL 特征在改进 VC 方面具有巨大潜力。
Apr, 2021
本研究通过使用预先训练的深度学习模型提取的语音嵌入,探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统,本研究在多个传统分类器上获得了 12.08%、28.71%、37.9%的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。
Jun, 2023