通过受控合成学习解耦的音频表征

ICLRFeb, 2024

通过受控合成学习解耦的音频表征

Learning Disentangled Audio Representations through Controlled Synthesis

Yusuf Brima, Ulf Krumnack, Simone Pika, Gunther Heidemann

TL;DR本文解决了解缠音频表示学习中基准数据的稀缺问题。我们介绍了 SynTone，这是一个合成数据集，具有明确的基准解释因素，用于评估解缠技术。在 SynTone 上评估最先进的方法展示了它在方法评估中的实用性。我们的结果强调了音频解缠的优势和局限性，推动了未来的研究。

Abstract

This paper tackles the scarcity of benchmarking data in disentangled auditory representation learning. We introduce syntone, a synthetic dataset with explicit ground truth →

benchmarking data disentangled auditory representation learning syntone explanatory factors method evaluation

发现论文，激发创造

学习解缠绕语音表示

利用综合研究人工数据集 SynSpeech 来评估监督技术在语音表征解耦上的效果，弥补有限的语音数据集缺乏已知生成因素的问题，为现有最先进的语音表征学习方法提供全面的评估和框架，进一步推动这个相对较少探索的领域的发展。

Nov, 2023

Synthia 的旋律：无监督音频领域自适应的基准框架

我们提出了 Synthia's melody，一个能够模拟具有用户指定混淆结构的无数种 4 秒旋律的音频数据生成框架，用以填补未经探索的音频领域无监督领域适应性研究的空白，并通过生成两种类型的分布偏移 - 模型域偏移和样本选择偏差来评估声学深度学习模型在这些偏移下的表现。我们的评估结果显示，Synthia's melody 为检验这些模型对不同程度分布偏移敏感性提供了稳健的测试平台。

Sep, 2023

从合成音频 Doppelgangers 进行对比学习

通过使用合成音频生成具有因果关系的音色、音高和时间包络变化的混合音频，我们提出了一种轻量级的方法来学习健壮的音频表示，该方法可以减轻从真实世界音频中获取大规模数据的负担，并在标准音频分类基准上取得强大的表现。

Jun, 2024

文本的无监督表示解缠：对合成数据集的评估

通过从图像领域选择代表性的成功应用模型来突显在无监督设置中实现文本领域的表征分离的挑战，我们评估了这些模型在 6 个分离度量、下游分类任务和同伦方面的性能。我们提出了两个具有已知生成因素的合成数据集，以促进评估。我们的实验强调了文本领域中存在的差距，并说明了一些因素，如表征稀疏性（作为归纳偏差）或与解码器的表征耦合，可能会影响分离效果。据我们所知，我们的工作是关于无监督表征分离和文本交叉领域的第一次尝试，并为研究该方向的未来发展提供了实验框架和数据集。

Jun, 2021

朝向解缠语音表示

本研究构建了一种联合建模的声学表征学习任务，强调去耦合（disentanglement）声音信号的相关和无关部分，然后证明这些理想的、去耦合的方案具有独特的统计性质，并在训练期间强制执行这些性质，使平均 WER 相对提高了 24.5％，这提出了一种新的有效的音频表示的学习方法。

Aug, 2022

利用分离音频表示动态表情

提出一种基于声音分解学习的方法来提高音频驱动的视频生成的性能，从而使生成的视频更鲁棒。

Oct, 2019

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021

探索合成音频数据在基于音频的对话状态跟踪中的可行性

通过研究合成音频数据进行基于音频的对话状态追踪，该论文开发了级联和端到端模型，用合成音频数据进行训练，并在实际人类语音数据上进行了测试。实验结果显示，仅在合成数据集上训练的模型可以将其性能推广到人类语音数据。消除对人类语音数据采集的依赖，这些研究成果为基于音频的对话状态追踪的重要实际进展铺平了道路。

Dec, 2023

从模拟到现实的感性偏见转移：一个新的解缠数据集

本文提出了一个包含超过一百万张 3D 物体图像的数据集，以及在实验平台上运用机械臂移动物体的方式，以此来精确控制所有变化的因素，实现了不同解缠绕建模方法对模拟数据和真实数据的比对，研究结果表明模型选择是从模拟数据向真实数据传递信息的有效手段。

Jun, 2019

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020