- 声音转换的节奏建模
本文介绍了一种无监督学习的方法 ——Urhythmic,此方法用于转换语音节奏,通过时间拉伸的方式实现源言语音节奏与目标言语音节奏的匹配,实验表明,Urhythmic 在语音转换中具有更好的无监督学习特性和合成质量。
- 无条件语音合成中 GAN 的解缠
提出了一种基于生成对抗网络的音频合成模型 (ASGAN),它在一个解耦的潜空间中对音频序列进行建模,并且通过引入自适应鉴别器增强技术的修改,它在无条件语音合成领域达到了最先进的水平。
- 通过语音转换在深度语音分类中进行后门攻击:伪造真实声音
利用预训练的语音转换模型生成基于样本的触发器,提高了语音后门攻击的效果和安全性。
- 2023 年唱声转换挑战赛
研究声音转换的科学竞赛活动的最新版本,聚焦于歌声转换挑战,涉及新数据库、领域内和领域间任务,通过大型听力测试发现,除了顶级系统的自然度可达到人类水平,但没有团队能够获得与目标演讲者的相似度一样高的分数,并探讨了现有的客观测量是否能够预测感知 - 基于排序模块和语音增强的自动语音分离转换
本论文提出了一种语音转换模型,通过只使用两个扩充函数,自动将语音分解成四个部分,而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效,并且实验结果表明,我们的模型在解缠效果和语音自然度方面均优于基线。
- ALO-VC:任意低延迟单次语音转换
本文提出了基于语音后验图的非并行低延迟单次语音转换方法 ALO-VC,采用预训练说话人编码器、语调预测器和位置编码器结合的混合信号处理和机器学习管道,提供两个系统版本,均可在单个 CPU 核心上部署并达到与非因果基线系统相当的性能。
- Make-A-Voice: 离散表示下统一语音合成
本研究提出了一个名为 Make-A-Voice 的语音合成框架,其中采用自监督数据集来实现文本语音合成、语音转换和唱歌声音合成等语音合成应用,并取得优越的音频质量和样式相似性。
- 仅使用最近邻实现语音转换
本文提出了一种基于 k 邻近算法的任意声音转换方法(kNN-VC),并通过客观及主观评估显示其声音相似度较高,同时具有与现有方法相当的可理解性分数,可用于音频合成。
- 逐步提升语音识别和语音转换
本论文中,我们提出了一种新颖的迭代方法,用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下,通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型,从而实验性地展示了两个模型的性能提高。
- 使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换
提出了一种基于声音转换技术的高相似度任意语音转换方法,该方法中使用了自监督学习方法及其提取的 SSL 输入表示,采用对抗训练机制和辅助判别器,通过外部未标注的大型语音语料库,在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有 - 揪出你和我:揭示语音转换技术对抗源说话人声纹的方法
通过使用 Revelio 模型,结合差分纠正算法,本文成功恢复了高品质语音转换方法合成音频中源说话人语音特征,且在性别转换、未知语言和电话网络中表现出了鲁棒性,可通过说话人验证和识别系统跟踪源说话人。
- 无需口音特定 TTS 前端的低资源口音建模
提出了一种利用语音转换技术和多人多口音 TTS 模型生成不同方言口音的方法,能够实现在没有专门的 TTS 前端系统的情况下,对低资源区域口音进行语音合成。
- UnifySpeech: 零样本文本转语音和语音转换的统一框架
该论文提出了 UnifySpeech 模型,它首次将文字转语音(TTS)和语音转换(VC)结合到一个框架中,通过矢量量化和域限制技术,加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。
- 离散无监督单元实现的语音风格转换
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
- 基于流模型语音转换实现跨语言语音合成以提高发音
该论文介绍了一种端到端的跨语言文字转语音方法,使用基于非注意力 Tacotron 架构的模型,并通过使用条件为说话人身份的归一化流网络,实现 TTS 和语音转换(VC)的可同时进行,该方法可以在低资源情景下获得良好效果。
- 元语音:元宇宙中的语音效果随环境变换
本研究旨在通过音频转换技术将真实环境的音频特效转换到 Metaverse 的用户语音上,实现用户在 Metaverse 中的更高度沉浸感。实验结果表明,该方法优于基线方法,可以完成特定环境音效的转换。
- GAN 能否听见?从扩散模型中重获无条件语音合成
AudioStyleGAN 是一个基于生成对抗网络的语音合成模型,利用噪声转换为分离的潜在向量,并引入新技术成功训练模型和实现不需要显式训练的语音转换和编辑,取得了 Google Speech Commands 数据集上的最佳效果。
- Zero-shot 伪造语音进行说话人去识别
提出了一种名为 DeID-VC 的系统,利用变分自编码器(VAE)生成伪人声以保护用户的语音隐私,可在发言者或话语层面分配独特的伪人声,并通过两个新的学习目标缩小了训练和推理之间的差距,实验结果表明与基线相比,DeID-VC 方法在可读性和 - 使用解耦表示构建说话人匿名系统是否足够?
本研究通过使用向量量化技术,加强从声学模型中提取特征时的内容和说话人信息的分离,从而改进说话人匿名化技术,并在 VoicePrivacy 2022 工具包上验证了该方法的有效性。
- TGAVC: 使用文本引导和对抗训练来改进自编码器语音转换
本文提出了一种名为 TGAVC 的语音转换框架,通过望文生义的内容嵌入,辅助提取正文内容并应用对抗训练消除说话人身份信息,从而更有效地分离语音的内容和音色。实验结果表明,TGAVC 模型在自然度和转换语音的相似度上优于 AutoVC。