- 一种基于 VITS2 的多说话人多语言语音克隆系统,用于 limmits2024 挑战
本文介绍了一个语音合成系统的开发,用于 LIMMITS'24 挑战赛,主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统,涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练,并针 - Small-E:用线性注意力实现高效语音合成的小型语言模型
最近关于文本到语音合成(TTS)的研究表明,使用语言模型驱动的 TTS 展示了卓越的能力,能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器,并引入专门的交叉关注机制以减少重复和跳跃问题。结果,我们的架构能够在长音频样本上高 - 非自回归实时音调转换模型与语音克隆
我们开发了一种实时语音转换模型,具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力,从而提高语音质量,增强现有 ASR 系统的识别性能,并适用于实时多用户通信场景。
- 主动检测基于区域水印的语音克隆
在语音生成模型的快速发展领域中,为了确保音频的真实性并防范声音克隆的风险,我们提出了 AudioSeal,这是第一种专门用于局部检测人工智能生成语音的音频水印技术。通过采用一个同时训练的生成器 / 检测器架构,结合一个可在采样级别上进行局部 - 开放语音:多功能即时语音克隆
OpenVoice 是一种全能的语音克隆方法,仅需参考说话者的短音频剪辑即可复制其声音,并在多种语言中生成语音。
- 对抗性语音合成的协作水印技术
用协同训练方案为合成语音水印化提供协助,并显示 HiFi-GAN 神经声码器与 ASVspoof 2021 基线反欺骗模型的合作训练能够持续提高检测性能,同时演示了协同训练如何与增强策略相结合以增强对噪声和时间拉伸的鲁棒性。最后,听测试表明 - 深度伪造语音的实时检测
生成式人工智能在语音领域有着重要的隐私和道德威胁,该研究通过生成了 DEEP-VOICE 数据集,并利用机器学习模型进行统计分析和超参数优化,最终实现了 99.3% 的准确分类,并能够实时检测 AI 生成的语音。
- TranssionADD: 基于多帧强化学习的序列标注模型用于音频深度伪造检测
本研究提出了一种 TranssionADD 系统,通过序列标签任务和 MFD 模块结合多种数据增强技术改进模型能力,使用 IFP 损失函数和处理 segment 异常值,有效解决了检测深度伪造语音 utterance 的难题。
- 融合语言学知识的实证研究:个性化自然语音合成中的充填式停顿
本研究旨在探讨基于语言知识的个性化自发性语音合成,着重针对充满话语不流畅的填充停顿进行个性化处理,通过开发一个基于多说话者语料库训练的非个性化外部填充停顿预测器的语音合成方法进行比较评估,证明了填充停顿时态与词汇的交错对自然度和个性化的必要 - 零样本多说话人文本语音中的准确声调复制
本论文采用 utterance 级别的规范化和发音人嵌入,在提取精细的韵律特征的同时,成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验,结果表明可以在不降低质量的条件下,成功实现语音的克隆。
- 零样本语音调制用于去噪扩散 TTS 模型
本文提出了一种新的方法,通过采样识别新目标的自然语音数据,并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频,而不需要进行任何训练步骤。
- 使用动态卷积注意力的零样本长篇语音克隆
本文介绍了一种基于注意力机制和零样本说话人自适应技术,在语音克隆技术中可以从几秒钟的参考语音中复制目标语音,从而实现长话语的普遍化,并且可以保持较高的自然度和相似性。
- AISHELL-3: 多说话人普通话 TTS 语料库和基准线
本论文介绍了 AISHELL-3 数据集,用于训练多扬声器普通话语音合成系统,同时介绍了一种基于 Tacotron-2 的多扬声器语音合成基线模型,该模型结合了说话人验证模型和相应的语音相似性损失作为反馈约束。该论文旨在利用所提供的语音数据 - 一个模型,多种语言:元学习应用于多语言文本朗读
本文介绍一种多语言语音合成方法,该方法使用上下文参数生成的元学习概念,使用更少的训练数据和更多的语言产生自然音质的多语言语音;其模型使用 Tacotron 2 和完全卷积输入文本编码器,在训练中使用 CSS10 数据集和新的基于 5 种语言 - ACL小明机器人:一款多语言新闻报道机器人
本文提出了一种名为 “小明 bot” 的多语种、多模态软件机器人,它具备生成新闻、翻译新闻、阅读新闻和头像动画等四种能力,并且通过语音克隆技术进行多语言语音合成。此系统拥有一个动画头像,能够生成和阅读多语言新闻。自推出以来,“小明 bot” - 使用少量样本的神经语音克隆
本文针对少量音频样本的情况,提出了一种基于神经网络的语音克隆系统,通过训练来进行说话人的自适应和编码,实现语音的自然性和相似度,适用于低资源系统的使用。