学习解缠绕语音表示

Nov, 2023

Learning Disentangled Speech Representations

Yusuf Brima, Ulf Krumnack, Simone Pika, Gunther Heidemann

TL;DR利用综合研究人工数据集 SynSpeech 来评估监督技术在语音表征解耦上的效果，弥补有限的语音数据集缺乏已知生成因素的问题，为现有最先进的语音表征学习方法提供全面的评估和框架，进一步推动这个相对较少探索的领域的发展。

Abstract

disentangled representation learning from speech remains limited despite its importance in many application domains. A key challenge is the lack of →

disentangled representation learning speech synthetic speech dataset supervised techniques speech representation learning

发现论文，激发创造

通过受控合成学习解耦的音频表征

本文解决了解缠音频表示学习中基准数据的稀缺问题。我们介绍了 SynTone，这是一个合成数据集，具有明确的基准解释因素，用于评估解缠技术。在 SynTone 上评估最先进的方法展示了它在方法评估中的实用性。我们的结果强调了音频解缠的优势和局限性，推动了未来的研究。

Feb, 2024

文本的无监督表示解缠：对合成数据集的评估

通过从图像领域选择代表性的成功应用模型来突显在无监督设置中实现文本领域的表征分离的挑战，我们评估了这些模型在 6 个分离度量、下游分类任务和同伦方面的性能。我们提出了两个具有已知生成因素的合成数据集，以促进评估。我们的实验强调了文本领域中存在的差距，并说明了一些因素，如表征稀疏性（作为归纳偏差）或与解码器的表征耦合，可能会影响分离效果。据我们所知，我们的工作是关于无监督表征分离和文本交叉领域的第一次尝试，并为研究该方向的未来发展提供了实验框架和数据集。

Jun, 2021

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021

朝向解缠语音表示

本研究构建了一种联合建模的声学表征学习任务，强调去耦合（disentanglement）声音信号的相关和无关部分，然后证明这些理想的、去耦合的方案具有独特的统计性质，并在训练期间强制执行这些性质，使平均 WER 相对提高了 24.5％，这提出了一种新的有效的音频表示的学习方法。

Aug, 2022

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

关于非监督学习解耦表示及其评价的冷静观察

本文提供了对无监督学习解开重要变动因素的最新发展的观点，旨在挑战一些常见的假设。本文首先从理论上证明了，无监督的解开表示恒妄图反演和数据上的约定性偏见是不可能的。接着，通过对 8 个数据集进行超过 14,000 个模型的训练，本文发现虽然不同的方法成功地实现了相应损失所鼓励的特性，但是没有监督的情况下，好的解开模型似乎无法被识别。此外，不同的评估指标并不总是在什么应该被认为是 “解开的” 上达成一致，而且在估计上表现出系统性差异。最后，增加的解开性似乎并不一定会导致学习下游任务的样本复杂度减少。本文的结果表明，关于解开学习的未来工作应该明确归因于诱导偏见和（隐含的）监督的作用，研究解开表示的具体好处，并考虑到涵盖几个数据集的可重复的实验设置。

Oct, 2020

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023

学习自然语言定义的解耦表示

使用可表征语法和语义规律的定义句类别训练变分自编码器，并在多个测试中展现其成功解耦表示效果，以及在定义建模中得到的改善。

Sep, 2022

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023

从模拟到现实的感性偏见转移：一个新的解缠数据集

本文提出了一个包含超过一百万张 3D 物体图像的数据集，以及在实验平台上运用机械臂移动物体的方式，以此来精确控制所有变化的因素，实现了不同解缠绕建模方法对模拟数据和真实数据的比对，研究结果表明模型选择是从模拟数据向真实数据传递信息的有效手段。

Jun, 2019