- 多语言讲话者匿名化的可行性探究
通过对九种语言的组件进行转换,将说话人匿名化系统扩展到多种语言,并通过隐私攻击和语音退化测试证明了该系统的整体成功。结果表明,基于英语数据训练的说话人嵌入可以应用于多种语言,并且语音合成组件的质量主要影响该语言的匿名化性能。
- 轻量级零样本文本转语音与适配器混合模型
基于大规模模型的零样本文本转语音(TTS)方法的进步展示了高保真度的说话者特征重现,但这些模型过于庞大以至于无法实际日常使用。我们提出了一种使用混合适配器(MoA)的轻量级零样本 TTS 方法。我们的方法将 MoA 模块整合到非自回归 TT - 面向阿拉伯方言的零射 Text-To-Speech
构建了一个包含多个方言的阿拉伯语音合成模型并通过评估表明其潜力大。
- 基于 CWT 的语音合成中的 Mel 频谱增强范式
基于连续小波变换的 Mel 频谱增强范式可提高合成语音的质量,与基线模型相比,该增强范式在自回归和非自回归语音系统中实验结果表明合成语音的 MOS 得分提高了 0.14 和 0.09,为增强范式广泛适用性提供了验证。
- 1000 名非洲人的声音:推进包容性多说话者多口音语音合成
Afro-TTS 是第一个能够在 86 种非洲口音中生成语音的泛非洲口音英语语音合成系统,包含了代表该大陆丰富的音韵多样性的 1000 个人物形象,可用于教育、公共卫生和自动内容创作。说话者插值保持了自然和口音特点,使得能够创造新的声音。
- PolySpeech: 探索统一的多任务语音模型以与单任务模型竞争
该研究提出了一种多任务语音模型 (PolySpeech),支持语音识别、语音合成和两个语音分类任务。PolySpeech 通过引入多模态语言模型作为核心结构,并使用语义表示作为语音输入,实现了多模态优化。实验结果表明,多任务优化在特定任务上 - 检索辅助的音频深度伪造检测
使用检索增强的检测框架,基于语音合成和深假声音技术,以及 ASVspoof 2021 数据集的实验结果,改进了深假声音检测方法,并提升了检测性能。
- 使用变长软池化方法从语音表示中去除说话人信息
通过利用语音的结构性质,采用神经网络预测边界从而实现可变长度池化,以去除语音表示中的说话人信息。通过使用时间拉伸和音高变换的数据增强方法,该模型训练时被评估为包含内容信息但独立于说话人信息。
- 透过零训练样本的情感和言语阻碍生成实现人性化的语音合成
现代对话系统在情感深度和人类交互特征方面存在重大局限。为弥补这一差距,我们设计了一种创新的语音合成流程,通过零 - shot 设置下的先进语言模型将人类情感和不流畅的特质引入生成的文本,从而更好地模拟人类语音模式,提供更直观自然的用户交互, - 利用数据增强条件式鉴别器训练基于生成对抗网络的声码器模型
基于生成对抗网络(GAN)的声码器利用对抗鉴别器进行训练,因其快速、轻量和高质量的特点而被广泛用于语音合成。然而,这种数据驱动模型需要大量训练数据,导致数据收集成本高。为了解决这个问题,我们提出了一种基于增强条件鉴别器(AugCondD)的 - 关于基于提示条件的语音合成的语言模型的实证研究
研究报告通过对自动回归 (AR) 和非自动回归 (NAR) 语音语言模型的实证研究,为提示设计和内容语义单元提供了深入洞察。分析表明,异构和非平稳的提示对音频质量有害,与之前发现提醒较长始终会产生更好的合成的结论形成对比。此外,我们发现除了 - 全人工合成实验室中准确的唇语到语音合成
提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法,通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入,并使用视觉流生成与输入视频同步的准确语音,通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性, - VoxGenesis:无监督发现语音合成的潜在说话人流形
提出了一种无监督的语音合成框架 VoxGenesis,通过探索潜在空间,发现与特定说话者特征相关的可解释方向,实现对声音的编辑,并生成更具多样性和真实性的说话者。
- 在小波域中的语音扩散模型加速:一种简单高效的方法
我们通过将生成目标定向到小波领域,将自波领域生成模型的训练和推理速度提升一倍,在语音合成任务中实现与原模型相媲美或更高的性能,并且证明了该方法的多功能性。
- 基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成
该论文提出了一种基于语音节奏的说话者嵌入方法,用于使用目标说话者的少量话语对音素持续时间进行建模。
- 口语对话建模的统一语音文本预训练
提出了一个名为统一口语对话模型(USDM)的广泛的语音文本模型框架,用于生成与给定输入语音相关的有机韵律特征的连贯口语回应,而不依赖于自动语音识别(ASR)或文本到语音(TTS)解决方案。该方法利用底层大型语言模型所展示的推理链能力,采用多 - Media2Face: 借助多模态引导生成共话脸部动画
从语音中合成 3D 面部动画引起了极大的关注。我们通过三位一体的方法来应对这一挑战,首先介绍了广义神经参数面部特征 (GNPFA),然后利用 GNPFA 从大量的视频中提取高质量的表情和准确的头部姿势,最后,我们提出了 Media2Face - 大型语言模型在语音合成中的提升:一项实证研究
本文综合实证研究了如何增强大型语言模型(LLMs)的语音合成能力,比较了三种 LLMs 和语音合成模型(VALL-E)的集成方法,结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能,比原始语音合成模型在讲话者相似度和词错误率(W - 基于深度生成网络的语音融合生成的神经语音嵌入
脑到语音技术可直接将脑信号转化为语音,通过神经表征学习与语音合成相结合,以提高自然交流的流畅性,可能为非语言沟通带来创新。本文介绍了当前的脑到语音技术,探讨了脑信号转化为语音的可能性,并对执行语音时的神经特征和神经语音嵌入进行了综合分析,这 - 引导式流生成建模与决策
使用非分类器引导的流匹配模型在条件图像生成和语音合成方面显著改善了样本质量,而且在计算量极低的情况下不会影响智能体的总体性能。