基于三重信息瓶颈的无监督语音分解
本文介绍了 SpeechSplit 2.0,它通过使用有效的信号处理方法来限制语音组件的信息流,从而实现了特定方面的语音转换和语音分离,相比于 SpeechSplit 在语音分离方面具有更高的稳健性和可靠性。
Mar, 2022
本论文提出了一种语音转换模型,通过只使用两个扩充函数,自动将语音分解成四个部分,而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效,并且实验结果表明,我们的模型在解缠效果和语音自然度方面均优于基线。
Jun, 2023
该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架,并通过使用三个高斯推理层实现,其中每个层由可学习的转换模型组成,能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性,其表现为等价错误率和最小 DCF 分别降低了 9.56%和 8.24%,而不需要额外的模型训练或数据,因此可以在实际应用中容易使用。
Oct, 2023
通过一个三合一的统一模型来对音频进行分离、转录和综合,采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系,从而实现零样本学习。
Aug, 2021
提出了一种自我对比无监督信号的方法,用于学习从原始音频中去识别的 prosody 表示,可以用于语音理解的新基准测试 DAMMP,检验了该方法所学到的非 timbral prosody 子组件,已达到部分去识别的效果。
Jul, 2021
本文介绍了一种新的自监督学习方法,采用 HuBERT 框架并结合分离机制,能够在不丢失语音信息的前提下实现说话人分离,并在内容相关的下游任务中获得显著的性能提升。
Apr, 2022
本文讨论并提出一种名为 Prosody2Vec 的语音重构模型,能够从无标记的情感语音语料库中学习韵律信息表示,并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉,同时与 HuBERT 表示相结合时表现优于最先进的方法。
Dec, 2022
我们提出了一种统一的系统,可以实现一次性的声音转换,包括语调、节奏和说话人属性,并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题,并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。
Nov, 2022
通过自监督解缠的表示学习方法,该论文提出了一种两阶段的方法,利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系,从而有效地引导语音提取网络并降低说话者混淆的可能性。此外,引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响,提供自然且高效的指导。实验结果验证了该方法的有效性。
Dec, 2023