基于音频的情绪识别的自监督学习

Jul, 2023

基于音频的情绪识别的自监督学习

Self-Supervised Learning for Audio-Based Emotion Recognition

Peranut Nimitsurachat, Peter Washington

TL;DR情感识别通过音频输入数据的模型可以实现在心理健康、营销、游戏和社交媒体分析等领域的交互式系统的发展。

Abstract

emotion recognition models using audio input data can enable the development of interactive systems with applications in mental healthcare, marketing, gaming, and social media analysis. While the field of

emotion recognition audio input data self-supervised learning acoustic modality affective computing

发现论文，激发创造

音频自监督学习：综述

本文综述了自监督学习在音频处理和语音处理领域中的应用，包括方法、实验和基准数据，并讨论了未来发展方向和存在的问题。

Mar, 2022

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

自监督学习用于婴儿哭声分析

本文探讨了自我监督学习（SSL）在分析超过一千名新生儿的临床指示下的呜 cries 数据库方面的应用，其中包括神经损伤的 cry 检测以及疼痛、饥饿和不适的 cry 触发器的识别。通过使用大量的无标签音频数据进行预训练和 SSL 对比损失（SimCLR）进行预训练，我们表明其在神经损伤和 cry 触发器方面都比监督式预训练有更好的表现。此外，我们还通过使用未标记的婴儿 cry 进行基于 SSL 的域自适应，进一步提高了性能，并减少了整个系统所需的标记数据。

May, 2023

多任务自监督预训练用于音乐分类

本文研究应用自监督学习和多任务学习方法预训练音乐编码器，探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现，使用多种音乐特定的自监督任务，结合合理的损失权重平衡，可以提高和推广到下游任务。

Feb, 2021

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

自监督学习对语音识别的受益及演讲者识别

本研究通过 Voxceleb-1 数据集进行了一系列实验来探究自监督学习在演讲者相关任务中表现良好的因素，结果表明模型的收益来源于语音预测损失、数据规模和模型大小的组合，同时自监督量化器的影响较小。我们进一步采用了集成梯度属性方法和损失函数可视化的方法来理解自监督学习对演说者识别性能的有效性。

Apr, 2022

自主学习用于少样本鸟声分类

自监督学习在音频领域具有重要潜力，本研究证明自监督学习可以在无需注释的情况下从音频记录中获取有意义的鸟类声音表示，并展示了这些学习表示能够在少样本学习情景中泛化到新的鸟类物种。另外，使用预训练的音频神经网络，在自监督学习中选择高鸟类激活窗口显著提高了学习表示的质量。

Dec, 2023

在实际应用中应用自监督学习，实现混合式自动语音识别

本文讨论了如何利用未经筛选的音频数据进行自监督学习，在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略，比较了近期开发的对比损失，并通过实验结果表明，利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。

May, 2022

无监督表示在语音情感识别中改善有监督学习

该研究提出了一种创新的方法，通过将自我监督特征提取与监督分类相结合，从较小的音频片段中识别情感，提高了人机交互的情感理解能力。

Sep, 2023

利用预训练的自监督前端实现自动唱歌声音理解任务：三个案例研究

本文探讨了无监督自学习模型在歌唱声音识别中的有效性和表现，并对其实验结果和行为进行了分析。

Jun, 2023