从原始音频学习去标识化韵律表征
本文讨论并提出一种名为 Prosody2Vec 的语音重构模型,能够从无标记的情感语音语料库中学习韵律信息表示,并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉,同时与 HuBERT 表示相结合时表现优于最先进的方法。
Dec, 2022
本文使用对比学习方法,针对每个机器 ID 而不是每个音频样本优化音频表示,使用自我监督 ID 分类器微调学习模型,增强了同一 ID 音频特征之间的关系,在 DCASE 2020 Challenge Task2 数据集上的实验表明,该方法在整体异常检测性能和稳定性方面胜过了使用对比学习或自我监督分类的最先进方法。
Apr, 2023
本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征,结果证明,学习到的 latents 不仅捕捉到每个音素的发音特征,而且提高了适应能力,在 accened 测试基准上大幅优于基准模型。
Oct, 2022
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020
我们提出了一种新的半监督自动语音识别方法,利用表示学习从无标注音频数据中重建滤波器组特征,并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统,实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。
Dec, 2019
本研究使用自我监督学习与深度神经网络等方法,探索提取声音和语音特征的最优表征,提出了多种编码器架构,并探讨了不同的预训练数据集。最后,我们提出了一个新的训练框架,用于结合手工特征和数据驱动特征,得到一个混合音频表征。在 HEAR 毕业设计的听觉场景分类和时间戳检测任务中,我们的实验表明,使用混合模型和卷积变压器作为编码器在大多数任务中都具有更优越的性能。
Jun, 2022
通过自监督解缠的表示学习方法,该论文提出了一种两阶段的方法,利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系,从而有效地引导语音提取网络并降低说话者混淆的可能性。此外,引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响,提供自然且高效的指导。实验结果验证了该方法的有效性。
Dec, 2023
本文提出了 DeLoRes,一种新的通用音频表示学习方法,基于自监督学习的方法,利用少量数据和计算资源,通过受到失真影响但包含音频样本非冗余信息的嵌入学习,实现特征的泛化,并在九种不同的分类任务上得出具有竞争力的结果。
Mar, 2022
本论文探讨了如何利用无监督的声学特征来增强语音识别,其中,通过学习始终对某些变换和变形不变的音频信号表示,实现了对短小的语音样本的有效处理,从而极大地提升了元音分类的准确性并降低了样本复杂性。
Jun, 2014