基于三重信息瓶颈的无监督语音分解

Apr, 2020

基于三重信息瓶颈的无监督语音分解

Unsupervised Speech Decomposition via Triple Information Bottleneck

Kaizhi Qian, Yang Zhang, Shiyu Chang, David Cox, Mark Hasegawa-Johnson

TL;DR本文介绍了 SpeechSplit，一个可以盲目将语音分解为其四个组成部分的算法，以及如何在没有文本标签的情况下分别在语调、音高和节奏上执行风格转换。

Abstract

Speech information can be roughly decomposed into four components: language content, timbre, pitch, and rhythm. Obtaining disentangled representations of these components is useful in many →

speechsplit disentangled representations voice conversion speech analysis pitch

发现论文，激发创造

SpeechSplit 2.0: 无需调节自编码器瓶颈的无监督语音去混叠技术

本文介绍了 SpeechSplit 2.0，它通过使用有效的信号处理方法来限制语音组件的信息流，从而实现了特定方面的语音转换和语音分离，相比于 SpeechSplit 在语音分离方面具有更高的稳健性和可靠性。

Mar, 2022

基于排序模块和语音增强的自动语音分离转换

本论文提出了一种语音转换模型，通过只使用两个扩充函数，自动将语音分解成四个部分，而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效，并且实验结果表明，我们的模型在解缠效果和语音自然度方面均优于基线。

Jun, 2023

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023

零样本音乐源分离、转录和合成的统一模型

通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Aug, 2021

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021

从原始音频学习去标识化韵律表征

提出了一种自我对比无监督信号的方法，用于学习从原始音频中去识别的 prosody 表示，可以用于语音理解的新基准测试 DAMMP，检验了该方法所学到的非 timbral prosody 子组件，已达到部分去识别的效果。

Jul, 2021

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

无监督语音重构中解离韵律表示

本文讨论并提出一种名为 Prosody2Vec 的语音重构模型，能够从无标记的情感语音语料库中学习韵律信息表示，并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉，同时与 HuBERT 表示相结合时表现优于最先进的方法。

Dec, 2022

一个自监督离散语音单元的统一单次韵律和说话人转换系统

我们提出了一种统一的系统，可以实现一次性的声音转换，包括语调、节奏和说话人属性，并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题，并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。

Nov, 2022

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023