利用语义信息和音频文本蒸馏模型实现高效的自监督情绪识别

May, 2023

利用语义信息和音频文本蒸馏模型实现高效的自监督情绪识别

Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models

Danilo de Oliveira, Navin Raj Prabhu, Timo Gerkmann

TL;DR本文旨在将 HuBERT 等 self-supervised learning 的模型应用在 SER 系统中，并通过分析模型的每一层得出更好的情感识别效果，提出基于 audio-textual distilled SSL 的模型实现更为高效的情感识别。

Abstract

In large part due to their implicit semantic modeling, self-supervised learning (SSL) methods have significantly increased the performance of valence recognition in speech emotion recognition (SER) systems. Yet, their large size may often hinder practical implementations. In this work,

self-supervised learning speech emotion recognition hubert valence recognition audio-textual distilled ssl

发现论文，激发创造

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

自监督神经因子分析用于解开话语级语音表示的混杂信息

通过聚类方法和因子分析模型，使用自监督学习的特征对 SSL 模型进行有监督微调，可用于说话人、情感和语言识别等级别任务，并提供更具有区分性的音频特征表示，此方法在 SUPERB 基准测试中表现良好。

May, 2023

基于音频的情绪识别的自监督学习

情感识别通过音频输入数据的模型可以实现在心理健康、营销、游戏和社交媒体分析等领域的交互式系统的发展。

Jul, 2023

言语情感识别的变压器时代黎明：缩小情绪价值差距

对几种预训练模型，fine-tuned 在情感词汇维度上，作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现，transformer-based architectures 在 SER 领域表现优越，特别是在情感预测方面。

Mar, 2022

FitHuBERT：语音自监督学习知识蒸馏的更轻更深

本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法，通过在几乎所有模型组件上缩小尺寸并增加详细层级，并通过提示辅助蒸馏方法减少性能退化，将模型压缩至 HuBERT 大小的 23.8％和推理时间的 35.9％，在超级基准测试中实现 12.1％的字错误率和 13.3％的音素误差率。

Jul, 2022

探究语音情感识别变形金刚在语言知识方面的应用

本文研究了使用 self-attention layer（transformers）预先训练的神经网络在情感识别中的表现，并发现这些模型成功利用语言信息来提高其 valence predictions，在测试他们时应包括对语言分析。

Apr, 2022

深度神经网络的无监督音频和语义训练模型

应用深度学习框架从文本特征中提取有意义的表示，研究了语义同步在人际交流和人机交互中的评估及其与声学特征之间的关联性。

Dec, 2023

语音情感：探究模型表达、多任务学习和知识蒸馏

本研究探讨利用预训练的声学模型，将词汇信息融合到声学语音信号中，以改善情感估计，特别是情感维度中的愉悦度估计，并且发现预训练的模型嵌入融合可比标准声学特征基线（Mel 滤波器的能量）产生更好的效果，且经测试可以推广到其他数据集上。

Jul, 2022

注意力和自监督语音嵌入对非语义语音任务的影响

人类情绪理解对于推动对话技术走向主流至关重要。我们视语音情绪理解为一项感知任务，这是一个更加现实的设置。通过在 ACM Multimedia 2023 计算跨语音信息挑战（ComParE）中利用其丰富的多语种演讲者数据集和 ' 情感共享 ' 多标签回归目标，我们展示了不同基础模型的训练方案对于超越语音识别等非语义语音任务（例如情绪理解）的效果产生重要影响，尤其是针对多语种演讲者、目标标签的可变性以及回归数据集中的固有不平衡性，我们的结果表明，基于自注意力的轻量级序列模型 HuBERT-Large 相较于报告的基准线有 4.6% 的改进。

Aug, 2023