基于回归的情感识别中的音视频融合中的递归联合注意力
通过使用多模态 Transformer 架构,全面利用视频中视觉和听觉模态之间的交互和内部依赖关系,以识别音频视觉表情和声音模式,该模型在 Affwild2 数据集上表现出优越性能。
Mar, 2024
本研究提出了一种新的多模态融合联合注意力机制,能够有效地从视听特征中学习联合表示,并通过递归式联合协同作用持续改进,从而在音视频事件定位任务中取得了明显的成果。
Aug, 2020
提出了用于处理单模式和多模式情感情况的多功能音视频学习框架,通过音视频共享层,残差连接和单模态重构任务实现有效的表示学习,在情感属性预测任务上达到了新的最先进性能。
May, 2023
该研究提出了一种名为条件注意融合的新型多模态融合策略,将长短期记忆循环神经网络应用为基础单模态模型,自动决定分配给不同情感模态的权重,获得了在情感价值预测方面优于多种常见融合策略的实验结果。
Sep, 2017
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。
Nov, 2018
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
我们提出了一个基于详细增强的模态内部和模态间交互网络(DE-III)的音频 - 视觉情感识别方法,利用光流信息丰富视频的纹理细节以捕捉面部状态变化,进一步改进视频和音频的丰富性和可区分性,通过详细的定量评估,我们的模型在三个基准数据集上都超过了现有方法,适用于具体和连续情感识别。
May, 2024