通过动态融合方法学习多模态词表示

AAAIJan, 2018

Learning Multimodal Word Representation via Dynamic Fusion Methods

Shaonan Wang, Jiajun Zhang, Chengqing Zong

TL;DR本研究提出了三种新颖的动态融合方法，旨在根据不同类型的词动态地融合来自不同模式的语义表示，并在单模型和多模型情况下取得了优于现有方法的成果。

Abstract

multimodal models have been proven to outperform text-based models on learning semantic word representations. Almost all previous multimodal mode

发现论文，激发创造

本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法，通过将视觉上下文元素整合到多模态 skip-gram 模型中，探索了何种因素可以作为视觉上下文，并进行了实验和分析。

Nov, 2017

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

本文提出了一种动态多模态融合的方法，可以在预测过程中根据数据的不同需求自适应地融合多模态数据，从而有效地减少计算成本，并在多个多模态任务上获得了良好的效果，这为动态多模态网络设计开辟了一条新的方向。

Mar, 2022

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019

本文介绍了一种使用低秩张量完成多模态数据融合的新方法，并在多模态情感分析、演讲者特征和情感识别等多个任务中取得了有竞争力的结果且极大地减少了计算复杂度。

May, 2018

该篇论文通过创建卷积 LSTM 网络结构，研究了多模态表示学习中视听融合的早期处理，结果表明，在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能，使其更能够抵抗白噪声的干扰。

Nov, 2020

通过结合融合目标和单模态蒸馏的方法，提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题，为实现真实世界的机器人应用奠定了基础。

Jun, 2021

本文介绍了一种有效的多模态特征融合框架，其中采用了两种创新的融合方案，可在一个共享的单一网络中学习多模态特征，并引入两个非对称融合操作，以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明，本文提出的框架在语义分割和图像翻译任务中表现优异。

Aug, 2021

本文提出一种优化跨多模态数据和标签的联合生成 - 判别目标函数的模型，将表示分解为多模态判别和模态特异性生成两组因子，实验结果表明该模型能够学习到有意义的多模态表示，并取得了领先水平的性能。

Jun, 2018

本研究探索了使用多模型文本 - 图像生成来实现视觉绑定对功能词汇习得的帮助程度，并发现多模型仅在极少数的代词子类和关系代词方面有效地建模功能词汇。

Oct, 2022