通过受控合成学习解耦的音频表征
利用综合研究人工数据集 SynSpeech 来评估监督技术在语音表征解耦上的效果,弥补有限的语音数据集缺乏已知生成因素的问题,为现有最先进的语音表征学习方法提供全面的评估和框架,进一步推动这个相对较少探索的领域的发展。
Nov, 2023
我们提出了 Synthia's melody,一个能够模拟具有用户指定混淆结构的无数种 4 秒旋律的音频数据生成框架,用以填补未经探索的音频领域无监督领域适应性研究的空白,并通过生成两种类型的分布偏移 - 模型域偏移和样本选择偏差来评估声学深度学习模型在这些偏移下的表现。我们的评估结果显示,Synthia's melody 为检验这些模型对不同程度分布偏移敏感性提供了稳健的测试平台。
Sep, 2023
通过使用合成音频生成具有因果关系的音色、音高和时间包络变化的混合音频,我们提出了一种轻量级的方法来学习健壮的音频表示,该方法可以减轻从真实世界音频中获取大规模数据的负担,并在标准音频分类基准上取得强大的表现。
Jun, 2024
通过从图像领域选择代表性的成功应用模型来突显在无监督设置中实现文本领域的表征分离的挑战,我们评估了这些模型在 6 个分离度量、下游分类任务和同伦方面的性能。我们提出了两个具有已知生成因素的合成数据集,以促进评估。我们的实验强调了文本领域中存在的差距,并说明了一些因素,如表征稀疏性(作为归纳偏差)或与解码器的表征耦合,可能会影响分离效果。据我们所知,我们的工作是关于无监督表征分离和文本交叉领域的第一次尝试,并为研究该方向的未来发展提供了实验框架和数据集。
Jun, 2021
本研究构建了一种联合建模的声学表征学习任务,强调去耦合(disentanglement)声音信号的相关和无关部分,然后证明这些理想的、去耦合的方案具有独特的统计性质,并在训练期间强制执行这些性质,使平均 WER 相对提高了 24.5%,这提出了一种新的有效的音频表示的学习方法。
Aug, 2022
通过研究合成音频数据进行基于音频的对话状态追踪,该论文开发了级联和端到端模型,用合成音频数据进行训练,并在实际人类语音数据上进行了测试。实验结果显示,仅在合成数据集上训练的模型可以将其性能推广到人类语音数据。消除对人类语音数据采集的依赖,这些研究成果为基于音频的对话状态追踪的重要实际进展铺平了道路。
Dec, 2023
本文提出了一个包含超过一百万张 3D 物体图像的数据集,以及在实验平台上运用机械臂移动物体的方式,以此来精确控制所有变化的因素,实现了不同解缠绕建模方法对模拟数据和真实数据的比对,研究结果表明模型选择是从模拟数据向真实数据传递信息的有效手段。
Jun, 2019
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020