TACOformer: 多模态情感识别的标记通道复合交叉注意力
本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略,研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时,实验也表明在 CEMO 上,音频编码包含的情感信息比文本更为丰富。
Jun, 2023
提出了一种基于分层混合模型的情感识别方法 MACTN,该模型通过卷积神经网络 (CNN) 提取局部情感特征,通过 transformer 集成稀疏的全局情感特征,并利用通道注意机制识别最相关的通道,在实验中取得超过其他现有方法的分类准确度和 F1 分数,早期版本已赢得 2022 年世界机器人大赛情感 BCI 竞赛的决赛冠军。
May, 2023
通过层级交叉模态变压器与模态门控的轻量级模型,本文在情感和情绪分析领域,解决了多模态数据融合存在的潜在问题,提出了一种确定主要模态并逐层整合辅助模态的方法,发现了交叉模态关注中的跨模态不一致性并在三个基准数据集上验证了该方法的有效性,并使模型参数数量减少到不到 100 万个,同时表现出具有竞争力的结果。
May, 2023
本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法,较之之前的表现更好,能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。
May, 2018
本文提出了一种基于 HCAM 方法的跨模态情绪识别模型,使用神经网络模型组合音频和文本数据,在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。
Apr, 2023
本文介绍了一个基于多通道注意力图卷积网络(MAGCN)的多模态情感分析框架,它将情感知识融合到跨模态交互学习中,并在多个数据集上实现了竞争性表现。
Jan, 2022
本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法(TokenFusion),可以在保持单模态 Transformer 结构基本不变的同时,学习多模态特征之间的相关性,并超越三个典型视觉任务中的最先进方法。
Apr, 2022
该研究提出了使用贝叶斯注意力模块(BAM)来增强来自不同模态的预先训练模型的协同注意力融合,以有效融入外部情感相关知识以学习情感相关知识,实验证明该方法能够超过最先进方法至少 0.7 个百分点的准确度。
Feb, 2023
本文提出了一种新的多模态语音和文本输入结构,使用多头交叉注意力结合预训练语音和文本编码器,并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测,并高效地捕获声学 - 韵律和词汇信息。
Apr, 2022