基于音频的情绪识别的自监督学习
本文探讨了自我监督学习(SSL)在分析超过一千名新生儿的临床指示下的呜 cries 数据库方面的应用,其中包括神经损伤的 cry 检测以及疼痛、饥饿和不适的 cry 触发器的识别。通过使用大量的无标签音频数据进行预训练和 SSL 对比损失(SimCLR)进行预训练,我们表明其在神经损伤和 cry 触发器方面都比监督式预训练有更好的表现。此外,我们还通过使用未标记的婴儿 cry 进行基于 SSL 的域自适应,进一步提高了性能,并减少了整个系统所需的标记数据。
May, 2023
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
本研究通过 Voxceleb-1 数据集进行了一系列实验来探究自监督学习在演讲者相关任务中表现良好的因素,结果表明模型的收益来源于语音预测损失、数据规模和模型大小的组合,同时自监督量化器的影响较小。我们进一步采用了集成梯度属性方法和损失函数可视化的方法来理解自监督学习对演说者识别性能的有效性。
Apr, 2022
自监督学习在音频领域具有重要潜力,本研究证明自监督学习可以在无需注释的情况下从音频记录中获取有意义的鸟类声音表示,并展示了这些学习表示能够在少样本学习情景中泛化到新的鸟类物种。另外,使用预训练的音频神经网络,在自监督学习中选择高鸟类激活窗口显著提高了学习表示的质量。
Dec, 2023
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。
May, 2022