- 基于对说话人嵌入进行对抗扰动的异步语音匿名化
本文研究声音匿名化技术,重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法,采用包含说话人解缠机制的语音生成框架生成匿名语音,并通过对说话人嵌入进行对抗扰动改变说话人特征,同时通过控制扰动强度保留人类感知。实验结果表明,在 - 通过高效的微调学习语音生成的细粒度可控性
提出了 Voicebox Adapter 方法,通过交叉注意力模块将细粒度条件整合到预训练的 Voicebox 语音生成模型中,探索了各种高效的微调方法,实验证明,采用具有偏差微调配置的 LoRA 方法性能最佳,提高了可控性同时保持了语音质 - 探索音频单元标记化的好处
本文展示了在三项预测任务中使用音素单元和 DAU 分词的优势,包括字素到音素、字素到 DAU 和使用 DAU 语言建模的无监督语音生成,并且证明了分词在性能、训练和推理速度上的显著改进,同时提供了理论解释。
- ACL具高效的分层变换器的生成式预训练语音语言模型
我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST),它将音频波形量化为两种不同类型的离散语音表示,并在层次变压器架构中进行集成,从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监 - 注意力拼接:注意力如何解决语音编辑问题
借助预训练的文本到语音模型,AttentionStitch 通过在其之上加入双重注意力块网络,自动将合成的梅尔频谱图与编辑文本的梅尔频谱图进行无缝融合,从而实现了高质量的语音编辑。
- GLA-Grad:一种 Griffin-Lim 扩展的波形生成扩散模型
我们提出了一种称为 GLA-Grad 的新方案,该方案在正常扩散过程的每个步骤中引入了相位恢复算法,以最小化条件错误并提高噪声扩散过程的效率,尤其在为先前未见过的目标演讲者生成语音时,我们的算法优于最先进的扩散模型。
- 通过合成注释实现高保真度文本转语音的自然语言指导
通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而,这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础,从而限制了其创造性应用。相反,关于说话人身份和风格的自然语言提示已经展示了有希望的结果 - 非我的声音!言语生成器的伦理和安全危害分类
通过分析语音生成事件,我们提出了一个模型 AI 伦理和安全风险路径的概念框架,该框架可用于开发语音生成器的伤害分类法,并支持相应的政策干预和决策制定。
- Pheme:高效且会话式的语音生成
在这项研究中,我们介绍了 Pheme 模型系列,它提供了紧凑而高性能的模型,能够并行生成自然对话式语音,并且可以高效地在较小规模的对话数据上进行训练,降低数据需求 10 倍以上,但仍能与自回归 TTS 模型的质量相匹配。我们还展示了通过简单 - Audiobox: 统一音频生成的自然语言触发器
Audiobox 是一种基于流匹配的统一模型,通过描述和示例的提示来增强可控性,统一了语音和声音生成范式,并通过使用 Bespoke Solvers 提高生成速度。
- EMNLPDiffS2UT:一种保持语义的无文本直接语音翻译扩散模型
通过在连续语音表示空间中应用向前扩散,同时在离散语音单位空间中应用向后扩散,我们提出了一种新的扩散模型,以此在扩散过程中保留了连续语音表示空间的语义结构,并整合了连续和离散扩散模型。在无文本直接语音翻译任务上进行了大量实验,该方法与计算密集 - DiffAR: 去噪扩散自回归模型用于原始语音波形生成
本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形,该模型通过自回归的方式顺序生成重叠帧,可以实现无限语音时长的合成,并保持高保真度和时间连贯性,通过直接处理波形具有优势,可以创建局部声学行为,同时该模型是随机的,生成略有差异的波 - 通过内容传递减少数据分布恢复步骤以加快扩散模型中的语音合成
通过使用扩散过程中前向时间步的不同输出作为目标,该论文提出了一种降低预测误差幅度、减少训练时间的方法,通过神经网络层逐步去噪最终生成清晰音频,该技术在时间效率和音频质量上超越了现有的先进工具并具有良好的泛化能力。
- AffectEcho: 语音合成的与说话人无关和语言无关的情感和情绪转移
AffectEcho 是一种情感转换模型,通过使用 Vector Quantized codebook 在量化空间中建模具有五个不同强度级别的情感,从而捕捉相同情感的复杂细微差别,实验结果证明了该方法在生成语音时控制情感的有效性以及保留每个 - AudioPaLM:一种可以说话和听取的大型语言模型
AudioPaLM 结合了 PaLM-2 和 AudioLM 两种语言模型,实现了对文本和语音的处理和生成,在语音识别和语音翻译等应用中具有优异性能,并且具有零 - shot 语音到文字翻译的能力。
- SpeechGen:利用提示释放语音语言模型的生成力量
本文介绍了一种名为 SpeechGen 的框架,使用 10M 个可训练参数,探索了提示调整方法来刺激语音语言模型进行各种生成任务,为更高效和有效地生成任务提供了前景。
- MM野外任意说话人唇语合成
采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音,比其他基线模型表现更好,能够实现针对特定身份的微调和生成不同语音的语音序列。
- 去噪扩散伽马模型
本文提出了一种基于 Gamma 噪声的去噪扩散 Gamma 模型(DDGM),并通过图像和语音生成任务验证了其性能优于传统的基于高斯噪声的扩散模型。
- StyleMelGAN:一种高效高保真的对抗性合成声码器,具有时态自适应归一化
提出 StyleMelGAN 算法,实现高保真度语音合成,并解决了低计算复杂度的问题。
- DurIAN: 基于时长信息的注意力多模态合成网络
本文提出了一种通用、强大的多模态合成系统,可以同时生成自然语音和面部表情,并能改善现有的端到端语音合成系统中的词跳过 / 重复错误,同时可以对语音和面部表情的表现力进行细粒度控制。