- 应用 ASV 进行语音识别:TTS 模型中 VC 和持续性预测改进的应用
该论文介绍了一种自动发言人验证系统,以从目标发言人的音频中提取嵌入信息,用于获取他的声音的重要特征,如音高、能量和音素的持续时间,并在多声音 TTS 流水线中使用该信息。
- 增强式儿童语音识别技术的改进
儿童语音识别的表现有待提高,本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换,结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Wh - 谁是真实的讲者
探索利用深度学习技术进行声音转换,识别原始说话者的可行性,通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性,并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。
- 基于注意力的交互式解缠网络用于实例级情感语音转换
提出了一种基于注意力的交互式解耦网络(AINN)来实现情感语音转换,该网络利用实例级情感知识进行训练,通过两个阶段的设计有效地模拟情感细节,并通过多视图一致性机制规范转换过程,从而优于现有的情感语音转换研究。
- AE-Flow:自动编码器归一化流
我们引入一种新的训练范式:自编码器归一化流(AE-Flow),它通过添加重构损失,使模型使用条件信息重构音频样本,结果表明该方法在正常化流的训练中系统地提高了说话者相似性和自然度。
- AutoVisual Fusion Suite:在 HuggingFace 平台上对图像分割和语音转换工具的全面评估
本研究对 HuggingFace 平台上可用的工具进行了全面评估,旨在识别人工智能中两个关键应用领域:图像分割和语音转换。通过安装和配置 Linux 系统上的顶级三个工具,我们利用了预训练的分割模型和语音转换模型,在实施过程中遇到的方法和挑 - PerMod: 以感知为基础的语音修改与潜在扩散模型
通过使用 PerMod,一个基于条件隐特征扩散模型的系统,我们可以根据给定的特征向量对声音进行感知修改,以实现期望的感知特性。然而,对于不典型声音,PerMod 的性能较差。
- 自动身份识别对音频视觉深度伪造的漏洞
该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF,其中嘴唇和语音同步,并具有高质量的视觉和音频。研究表明,通过调整现有的预训练深度伪造模型来适应特定身份,可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统,并获得 - HierSpeech++:通过分层变分推断在语音的语义和声学表示之间建立联系以进行零样本语音合成
HierSpeech++ 是一种快速而强大的零样本语音合成器,适用于文本转语音(TTS)和语音转换(VC),通过采用层次化语音合成框架,显著提高了合成语音的健壮性、表达力和自然度,在零样本语音合成场景中实现了人类级质量。
- Diff-HierVC: 基于扩散的层次化语音转换技术,具备鲁棒的声调生成和掩蔽式先验用于零样本说话人自适应
Diff-HierVC 是一种基于两个扩散模型的分层语音转换系统,通过 DiffPitch 有效地生成具有目标音色的 F0,然后使用 DiffVoice 将语音转换为目标音色,通过源 - 滤波器编码器进行信息分离,并在 DiffVoice - CPU 上的低延迟实时语音转换
我们将之前的音频处理和生成神经网络的结构应用于实时的多对一声音转换任务中,得到了具有低延迟和低资源使用的模型 LLVC(低延迟低资源声音转换),在 16kHz 比特率下延迟不到 20 毫秒,在消费级 CPU 上运行速度接近实时的 2.8 倍 - SelfVC:自我转换的迭代细化音频转换
我们提出了 SelfVC,一种训练策略,通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型,并通过创建具有挑战性的自我合成示例来不断改进模型。Sel - 语音转换给口吃的语言,乐器,未知语言和文本描述的声音转换
使用 k 最近邻声音转换模型,调查其在非标准下游语音转换任务中的表现,包括口吃声转换、跨语言声音转换、乐器转换和文本转语音转换。与基准线方法相比,k 最近邻声音转换在口吃声转换和跨语言声音转换中保持高性能,但在乐器转换和文本转语音转换任务中 - 通向通用文本指导的语音转换
这篇论文介绍了一种新颖的语音转换(VC)模型,它由文本指令引导,比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同,我们的模型为语音转换增加了多样性和特定性。提出的 VC - 使用随机变分深层核学习的并行和有限数据语音转换
基于随机变分深度核学习方法的有限数据语音转换模型在使用较少数据的情况下获得更高的平均意见得分、较小的频谱失真和更好的偏好测试结果。
- 样式手册:只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模
本文提出一种新方法,通过自监督学习 (SSL) 模型形成注意机制,从目标话语中提取丰富的风格信息并将其高效地转移到源语音内容,从而在无需文本转录或说话者标签的情况下忠实地再现目标说话者的说话风格。通过将风格信息和源语音内容作为输入,利用扩散 - MM评估无真实标注数据的外语口音转换方法
外语口音转换是声音转换的一个特殊应用,通过使用序列到序列模型和非平行语音转换模型,本研究评估了三种无需真实参考数据的外语口音转换方法,发现在所有评估指标上,没有一种方法明显优于其他方法。
- 通用可推广的零样本说话者自适应语音合成与解绑表示
解决合成声音的自然性和说话人相似度降低的问题,我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性,并利用变分自动编码器的表示学习能力增强说话人编码器,实验证明我们的模型在未知说话人上有更好 - 音素幻像器:通过集合扩展的单次语音转换
提出了一种新颖的方法 “音素幻觉生成器”,它可以在仅有目标说话者短音频数据的情况下,生成多样且高保真度的目标音素,从而在语音转换中实现高逼真度和说话者相似度的平衡。
- SLMGAN:利用语音语言模型表示的 GAN 进行无监督零样本语音转换
介绍了一种新的方法 SLMGAN,它利用 SLM(大规模预训练的语音语言模型)在生成对抗网络(GAN)框架中实现鉴别任务,特别是用于语音转换。通过在基于 mel 的鉴别器之上添加基于 SLM 的 WavLM 鉴别器,并结合新设计的 SLM