使用基于序列的卷积神经网络在电视秀文本上进行情感检测
本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法,较之之前的表现更好,能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。
May, 2018
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本篇论文提出利用基于 LSTM 的深度学习模型来检测文本对话中的情绪,讨论了利用语义和情感嵌入的半自动化技术来收集训练数据以及结合方案,该方法在真实场景下的表现优于传统机器学习基准线和其他现成的深度学习模型。
Jul, 2017
本文提出了一种利用深度递归神经网络来识别语音情感的方法,通过对小语音时间间隔内计算的一系列声学特征进行训练,同时采用特殊的概率性 CTC 损失函数来考虑包含情感和中性部分的长语音片段,在与最近进展的比较和人类表现的对比中展示了该方法的高质量。
Jan, 2017
研究使用传统机器学习技术和深度神经网络模型在社交媒体文本数据中识别情绪,并构建一个双向长短记忆神经网络(BiLSTM)和双向门循环单元(BiGRU)的集成模型,其中 BiGRU 模型表现最佳,准确率达 87.53%。此结果将有助于开发一个可视化情绪波动的决策工具。
Feb, 2023
本文提出了一种深度双重循环编码器模型,利用语音和文本数据进行机器情感识别,该模型表现更优,实验结果显示,当将该模型应用于 IEMOCAP 数据集时,在将数据分配到四个情感类别(愤怒,高兴,悲伤和中性)方面,准确率在 68.8%至 71.8%之间。
Oct, 2018
本文介绍了 EmotionLines 数据集,这是第一个只基于文本内容在每个对话中为所有话语进行情感标注的数据集,共包括来自 Friends 电视剧和私人 Facebook 信使对话的 2000 个对话中的 29245 种话语,并为 EmotionLines 中的情感检测模型提供了多个强基线。
Feb, 2018
本文提出了一种基于并行卷积层的方法,在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务,并可以达到使用手工制作特征训练 CNN 的性能水平。
Apr, 2019
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。
Oct, 2023