语音情感识别的实证研究与改进
本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法,以提高音频 - 文本多模态情感识别的准确性,并在 IEMOCAP 数据集上取得了最先进的性能。
Sep, 2019
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本文提出了一种深度双重循环编码器模型,利用语音和文本数据进行机器情感识别,该模型表现更优,实验结果显示,当将该模型应用于 IEMOCAP 数据集时,在将数据分配到四个情感类别(愤怒,高兴,悲伤和中性)方面,准确率在 68.8%至 71.8%之间。
Oct, 2018
本文提出了一种新颖的深度多模态框架,基于句子级别的口语语言预测人类情感,通过混合式的深度多模态结构从文本和音频中提取高级特征,再使用三层深度神经网络将所有特征融合起来进行训练,实现整个结构的最优全局微调,结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。
Feb, 2018
通过利用标签信息进行多模态情绪识别,我们提出了一种新的方法,通过标签 - 令牌和标签 - 帧交互来学习每个话语的标签增强文本 / 语音表示,并设计了一种新的标签引导的注意融合模块,以融合具有标签意识的文本和语音表示进行情绪分类,实验证明该方法优于现有基线并取得了最新的最佳性能。
Sep, 2023
本研究通过卷积神经网络从文本、视觉等多个角度提取特征,实现了情感分析和情绪识别,并取得了 10% 的性能提升。同时,我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题,如讲话者无关模型和模态重要性等,从而为今后的研究提出了新的基准,并展示了在执行此类任务时需要考虑的不同方面分析。
Jul, 2017
通过使用多模态感情识别方法和各种融合技术,本研究在 IEMOCAP 多模态数据集上实现了 75.42% 的准确率,主要关注多模态感情识别、自监督学习、迁移学习和 Transformer 模型。
Feb, 2024
本文提出了一种多模态多任务学习的情感识别方法,包括文本和声学模态的早期融合和自我注意力,使用动态融合网络用于语音编码器,得到了目前最先进的性能结果。
Mar, 2022
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
本研究采用基于特征工程的方法来解决语音情感识别的问题,并通过提取八个手工特征,将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现,我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。
Apr, 2019