学习解缠绕语音表示
本文解决了解缠音频表示学习中基准数据的稀缺问题。我们介绍了 SynTone,这是一个合成数据集,具有明确的基准解释因素,用于评估解缠技术。在 SynTone 上评估最先进的方法展示了它在方法评估中的实用性。我们的结果强调了音频解缠的优势和局限性,推动了未来的研究。
Feb, 2024
通过从图像领域选择代表性的成功应用模型来突显在无监督设置中实现文本领域的表征分离的挑战,我们评估了这些模型在 6 个分离度量、下游分类任务和同伦方面的性能。我们提出了两个具有已知生成因素的合成数据集,以促进评估。我们的实验强调了文本领域中存在的差距,并说明了一些因素,如表征稀疏性(作为归纳偏差)或与解码器的表征耦合,可能会影响分离效果。据我们所知,我们的工作是关于无监督表征分离和文本交叉领域的第一次尝试,并为研究该方向的未来发展提供了实验框架和数据集。
Jun, 2021
本研究构建了一种联合建模的声学表征学习任务,强调去耦合(disentanglement)声音信号的相关和无关部分,然后证明这些理想的、去耦合的方案具有独特的统计性质,并在训练期间强制执行这些性质,使平均 WER 相对提高了 24.5%,这提出了一种新的有效的音频表示的学习方法。
Aug, 2022
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020
本文提供了对无监督学习解开重要变动因素的最新发展的观点,旨在挑战一些常见的假设。本文首先从理论上证明了,无监督的解开表示恒妄图反演和数据上的约定性偏见是不可能的。接着,通过对 8 个数据集进行超过 14,000 个模型的训练,本文发现虽然不同的方法成功地实现了相应损失所鼓励的特性,但是没有监督的情况下,好的解开模型似乎无法被识别。此外,不同的评估指标并不总是在什么应该被认为是 “解开的” 上达成一致,而且在估计上表现出系统性差异。最后,增加的解开性似乎并不一定会导致学习下游任务的样本复杂度减少。本文的结果表明,关于解开学习的未来工作应该明确归因于诱导偏见和(隐含的)监督的作用,研究解开表示的具体好处,并考虑到涵盖几个数据集的可重复的实验设置。
Oct, 2020
通过自监督解缠的表示学习方法,该论文提出了一种两阶段的方法,利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系,从而有效地引导语音提取网络并降低说话者混淆的可能性。此外,引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响,提供自然且高效的指导。实验结果验证了该方法的有效性。
Dec, 2023
该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架,并通过使用三个高斯推理层实现,其中每个层由可学习的转换模型组成,能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性,其表现为等价错误率和最小 DCF 分别降低了 9.56%和 8.24%,而不需要额外的模型训练或数据,因此可以在实际应用中容易使用。
Oct, 2023
本文提出了一个包含超过一百万张 3D 物体图像的数据集,以及在实验平台上运用机械臂移动物体的方式,以此来精确控制所有变化的因素,实现了不同解缠绕建模方法对模拟数据和真实数据的比对,研究结果表明模型选择是从模拟数据向真实数据传递信息的有效手段。
Jun, 2019