- WavRx:一种疾病不可知、通用和隐私保护的语音健康诊断模型
提出了一种能够捕捉通用语音表示中呼吸与表达动态的语音健康诊断模型 WavRx,该模型在六个病理语音数据集上的领域内和领域间实验表明 WavRx 是一种新的最先进的健康诊断模型,并且在没有额外指导的情况下,WavRx 健康嵌入中包含的说话者身 - 自监督模型与人类中的演讲者身份编码评估
自我监督表示与声音识别中的说话人身份有关,并能更好地理解强大网络中不同层次的声学信息表示,通过评估声学、语音、韵律和语言变体之间的说话人识别准确性,对比模型和人类的编码空间相似性,旨在挑战距离度量作为说话人接近程度的代理,并展示某些模型能够 - 通过合成注释实现高保真度文本转语音的自然语言指导
通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而,这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础,从而限制了其创造性应用。相反,关于说话人身份和风格的自然语言提示已经展示了有希望的结果 - 通过感知的声音特质实现说话人身份的可解释表示
通过添加性别感知语音特征到 Consensus Auditory-Perceptual Evaluation of Voice(声音感知评估协议)中,基于感知声音特征的方法提供了一种成人声音性格的感知潜在空间,作为高层次人口统计学信息和低层 - 面向风格的语音:面至声自然零样本语音合成中面部图像的改进潜在映射
通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要,本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型(Face-StyleSpeech),通过结合面部编码器和韵律编码器从面部图像中分别捕捉说 - PromptTTS++:使用自然语言描述控制基于提示的文本到语音中的说话人身份
这篇论文提出了 PromptTTS++,一个基于提示的文本到语音合成系统,通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份,引入了说话者提示的概念,描述了与说话风格大致独立的语音特征,可以有效地学习从自 - 通过操作语音风格潜在因素进行跨说话人情感转移
本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究,可以使用仅有的几个标记样本从阅读风格语音生成情感语音,并且情感强度可以轻松控制,保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。
- FaceXHuBERT:基于自监督语音表征学习的无文字驱动表情丰富的 3D 面部动画合成
该研究提出了一种基于语音和自监督预训练 HuBERT 模型的 3D 面部动画生成方法,可以捕捉到语音中的身份、情感和犹豫等个性化和微妙的提示,同时具有很强的抗干扰能力和适应性。
- 无监督语音重构中解离韵律表示
本文讨论并提出一种名为 Prosody2Vec 的语音重构模型,能够从无标记的情感语音语料库中学习韵律信息表示,并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉,同时与 HuBERT 表示相结合时表现优于最先进的方法。
- 利用声学上下文调节、话语嵌入和参考编码器实现零样本基于文本的语音编辑
本文研究了基于文本声音编辑技术(Text-based voice editing,TBVE)的新方法,通过使用预训练说话人验证嵌入和联合训练参考编码器的方法,增强了语音中的说话人身份和韵律连续性。
- 在师生框架下进行数据增强的跨语言合成
本篇论文旨在通过应用师生范式来解决跨语言综合中常见的泛化问题。结果表明,该方法在保持语音自然度和韵律变化的同时,有效提高了说话人特征的保留。
- 数据增强用于文本转语音的跨说话人风格转移
使用语音转换进行数据增强,构建单说话人多风格的 TTS 系统,实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。
- 从文本、音频、说话者身份的三模态上下文生成言语手势
本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型,使用新的手势生成度量标准和主观人类评估表明,该模型优于现有的端到端生成模型。
- 使用跨模态自监督进行解缠语音嵌入
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了 - 语音识别中的隐私保护对抗性表征学习:现实还是幻象?
本文旨在研究自动语音识别中隐私保护的问题,提出了利用深度编码器 - 解码器架构中的预训练技术来保护说话人身份,通过对开放和封闭说话人集的说话人识别和验证实验,论证了对抗训练架构可以显著减少封闭集的分类精度,提高个人隐私保护的效果。
- StarGAN-VC:基于星形生成敌对网络的非平行多对多语音转换
本文提出了一种使用生成对抗网络的变体 StarGAN 进行非平行多对多语音转换(VC)的方法,称为 StarGAN-VC,这种方法可以在不需要平行语音生成器训练的情况下实现并同时学习不同属性域之间的多对多映射,能够快速生成转换的语音信号,并