众包标注数据的语音情感识别课程学习

May, 2018

众包标注数据的语音情感识别课程学习

Curriculum Learning for Speech Emotion Recognition from Crowdsourced Labels

Reza Lotfian, Carlos Busso

TL;DR该研究提出了一种方法，旨在通过针对对情感识别的深度神经网络（DNN）的训练过程进行有针对性的课程设计来最大化其效率。

Abstract

This study introduces a method to design a curriculum for machine-learning to maximize the efficiency during the training process of deep neural networks (DNNs) for speech emotion recognition. Previous studies in

machine learning deep neural networks speech emotion recognition curriculum design training efficiency

发现论文，激发创造

对话情感识别的混合式课程学习

本研究提出了一种以情绪识别为中心的混合课程学习框架，其中包括对话级别和话语级别课程。使用情感转移频率对对话进行排序并逐步强化模型对混淆情感的识别能力，我们观察到该模型跨多个 ERC 数据集显著提高了性能，达到了新的最先进水平。

Dec, 2021

基于深度学习的情感识别数据增强技术比较研究

本文对情感识别中的流行深度学习方法进行了全面评估，发现语音信号中的长距离依赖对情感识别至关重要，而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。

Nov, 2022

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

端到端自动语音识别新课程标准的比较与分析

本篇论文探讨了如何通过 Curriculum Learning 使用有组织的训练数据，以提高机器学习模型的性能，并在语音识别领域证明了这一方法的有效性。

Aug, 2022

AHD ConvNet 语音情绪分类

本文提出了一种新的基于孪生网络的 mel 频谱学习方法，用于从 CREMA-D 数据集中的 wav 形式的语音记录中学习情感，所提出的模型使用对数 mel - 频谱图作为特征，mels 数量为 64，在情感语音识别的问题上，相对于其他方法，本方法所需的训练时间更短。

Jun, 2022

使用 CNN 的语音情感识别及其在数字化医疗中的应用案例

使用卷积神经网络（CNN) 对音频录音进行识别和情感标记，通过机器学习方法评估表情识别模型，并关注精确度、召回率和 F1 得分，以提高交流意图的识别能力。

Jun, 2024

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

野外情感语音识别中的跨模态转移

本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Aug, 2018

通过对抗训练进行说话者不变的情感表示学习

本文提出了一种基于对抗训练网络来消除发言人特征并更好地表示情感的机器学习框架，在 IEMOCAP 和 CMU-MOSEI 数据集上实验表明该框架能够提高语音情感分类的准确性并增加对未知发言人的泛化能力。

Nov, 2019

EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

在先进的人工智能和人机交互时代，识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用，提供了一个综合的解决方案，解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架，将现有的说话人分离流程与基于卷积神经网络（CNN）构建的情绪识别模型相结合，以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练，包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数（MFCC）、过零率（ZCR）、均方根（RMS）以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态，展示了出色的效率。

Oct, 2023