该论文提出了一种新的多粒度感知网络 (MGPN),旨在改善视频中的时刻检索,将时刻检索建模为一种多选阅读理解任务,结合人类阅读策略,并通过优化算法提高了检索精度。
May, 2022
本文介绍了一个基于多通道注意力图卷积网络(MAGCN)的多模态情感分析框架,它将情感知识融合到跨模态交互学习中,并在多个数据集上实现了竞争性表现。
Jan, 2022
本文提出了一个名为 “多层依赖注意力网络”(MDAN)的深度学习框架,通过融合全局学习和局部学习优化网络,采用底层朴素贝叶斯分类器、自底而上的分类器和自顶而下的情感语义映射分类器来消除视觉线索和图片表达情感之间的 “情感差距”,同时设计两种注意力模块以恰当地提取和利用通道相关性和空间注意力,相比现有技术在 6 个视觉情感分析基准上取得了新的最优性能。
Mar, 2022
本研究旨在开发和分析多模态模型,预测观众观看电影片段时的情感反应。研究发现,通过提取 RGB 帧和光流的特征以及音频中的各种低级描述符,采用深度神经网络模型来进行情感预测更为精确。其中,光流特征比 RGB 视频更加信息含量丰富,且音频特征的预测精度高于视频特征。
Sep, 2019
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
文章介绍了一种用于检测假新闻的多粒度多模态融合网络模型,并将模型性能与现有方法进行了比较。
Apr, 2023
该研究提出了一种名为条件注意融合的新型多模态融合策略,将长短期记忆循环神经网络应用为基础单模态模型,自动决定分配给不同情感模态的权重,获得了在情感价值预测方面优于多种常见融合策略的实验结果。
Sep, 2017
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
本文提出了一种新的模型 —— 门控双向对齐网络(GBAN),该模型利用注意力机制的双向对齐网络和一种新颖的分组门控融合层来明确捕捉语音和文本之间的对齐关系,并在不同模态中集成表示,从而在 IEMOCAP 数据集上优于现有的最先进的多模态方法。
本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题,提出了一种基于 attention 机制和单词级融合的分层多模态体系结构,以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明,该模型在现有数据集上表现优异。