研究了如何通过人工注释对多模态交互进行分类,提出了信息分解方法,比较了部分标签和反事实标签的机会和限制,并提出了一种自动转换方法以量化多模态数据集中的交互
Jun, 2023
该研究使用手术视频讲座来进行多模态表示学习,通过自动生成的文本转录来解决手术视频中的语言挑战,提出了一种新的对齐视频和文本嵌入的方法 SurgVLP,并介绍了一些用于手术的视觉与语言任务作为评估标准。
Jul, 2023
提出了一种新的多模态方法,将语音和其文本表示作为两个视图进行联合学习,从而实现语音实时序列标记。该模型应用于电话紧急医疗服务,作为紧急呼叫中心决策支持系统中的一部分,取得了显著的改进。
May, 2020
本文介绍了一种多模态融合模型,该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试,并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。
Jul, 2018
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
本文提出了一种情感反馈合成系统,通过使用基于变压器的文本编码器和基于 Faster RCNN 的视觉特征提取器,并将二者进行拼接,构建了多模式特征向量,以此合成带有文本和图像输入的反馈,其结果表明合成的反馈语义上与真实观众的评论相似,且与给定的文本图像输入相关。
Mar, 2022
本论文提出了一种新的特征融合策略并应用在情感分析中,该策略通过分层融合两种模态,然后再将其与第三种模态融合,在个别话语的情感分析和视频剪辑的情感分析中均取得了优异的效果。
Jun, 2018
本研究通过卷积神经网络从文本、视觉等多个角度提取特征,实现了情感分析和情绪识别,并取得了 10% 的性能提升。同时,我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题,如讲话者无关模型和模态重要性等,从而为今后的研究提出了新的基准,并展示了在执行此类任务时需要考虑的不同方面分析。
Jul, 2017
本文介绍了一种在临床环境中的音频 - 视觉建模方法,提供了一种无需人工专家标注的学习医学表征的解决方案,通过只有语音音频作为参考,可以定位超声成像中感兴趣的解剖区域。在大规模临床多模式超声视频数据集上的实验评估表明,该自我监督方法学习到的良好可迁移的解剖表征可以提高自动化的下游临床任务的性能,甚至超过完全监督的解决方案。
Oct, 2023
本文介绍了一种个性化多模态反馈生成网络,通过引入模态门机制和个性化偏置机制,实现了自动评估学生作业的功能,并取得了明显的性能提升。模型在实际的 K-12 教育数据上表现出更准确和更多样化的反馈。
Oct, 2020