本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态 skip-gram 模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
Nov, 2017
本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合,涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面,旨在为相关社群未来的研究提供参考。
Nov, 2019
本文提出了一种动态多模态融合的方法,可以在预测过程中根据数据的不同需求自适应地融合多模态数据,从而有效地减少计算成本,并在多个多模态任务上获得了良好的效果,这为动态多模态网络设计开辟了一条新的方向。
Mar, 2022
本研究提出了两种自适应融合网络(Auto-Fusion、GAN-Fusion),通过对不同模态的特征进行有效的上下文建模,在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。
本文介绍了一种使用低秩张量完成多模态数据融合的新方法,并在多模态情感分析、演讲者特征和情感识别等多个任务中取得了有竞争力的结果且极大地减少了计算复杂度。
May, 2018
该篇论文通过创建卷积 LSTM 网络结构,研究了多模态表示学习中视听融合的早期处理,结果表明,在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能,使其更能够抵抗白噪声的干扰。
Nov, 2020
通过结合融合目标和单模态蒸馏的方法,提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题,为实现真实世界的机器人应用奠定了基础。
Jun, 2021
本文介绍了一种有效的多模态特征融合框架,其中采用了两种创新的融合方案,可在一个共享的单一网络中学习多模态特征,并引入两个非对称融合操作,以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明,本文提出的框架在语义分割和图像翻译任务中表现优异。
Aug, 2021
本文提出一种优化跨多模态数据和标签的联合生成 - 判别目标函数的模型,将表示分解为多模态判别和模态特异性生成两组因子,实验结果表明该模型能够学习到有意义的多模态表示,并取得了领先水平的性能。
Jun, 2018
本研究探索了使用多模型文本 - 图像生成来实现视觉绑定对功能词汇习得的帮助程度,并发现多模型仅在极少数的代词子类和关系代词方面有效地建模功能词汇。
Oct, 2022