我们提出了一种多模态的消息传递网络,不仅能够从图的结构中学习端到端信息,还能从其中多样的多模态节点特征中学习,包括数字、文本、日期、图像和几何形状,通过在一个联合表示空间中投影到它们的关系信息。通过在人工和真实数据集上进行节点分类和链接预测的实验,我们发现任意知识图的端到端多模态学习是可能的,并且包含多模态信息可以显著影响性能,但这很大程度上取决于数据的特征。
Sep, 2023
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
本文提出了一种基于图神经网络对查询进行编码的通用架构,与现有方法相比,该方法可以编码更多种类型的查询。实验结果表明,该模型可以学习到表示实体类型的实体嵌入,并在复杂查询方面表现优异。
Feb, 2020
多模态图学习 (MMGL) 是一个通用、系统化的框架,用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。
Oct, 2023
本论文提出了一种新型的基于图的多模态融合编码器,用于多模态神经机器翻译(NMT)中利用不同模态语义单元之间的细粒度语义对应关系,以优化多模态表示学习,并在 Multi30K 数据集上验证了模型的卓越性能。
Jul, 2020
该研究提出了一种使用多种神经编码器的多模态知识库嵌入方法,将它们与现有关系模型相结合,学习实体和多模态数据的嵌入,进而提出了一种新的多模态插值模型,用于从知识库中的信息生成丢失的多模态值,并通过用户研究评估了其生成的多模态值的质量。
Sep, 2018
本文介绍了一种多模式图形学习的蓝图,该模型通过将不同模态的数据集组合成图形,并使用图形来利用跨模态的依赖关系,同时利用图形作为指导提供了图形学习方法的设计方案和指导,以解决在多模态数据集中学习的基本挑战。
Sep, 2022
该论文研究了将图模态集成到大型语言模型中,以提升其在图解指令任务中的性能表现,并通过图嵌入训练模型,使其能够理解和基于图表示生成回答。该方法在性能上显著优于图文方法,并且对于较大的图结构保持一致。
May, 2024
该研究调查了多模态学习中的视觉语言学习及其与知识图谱的结合,提出了一种基于知识图谱的视觉语言学习模型以解决一般性知识方面的问题。
Nov, 2022
本文提出一种多模态图变换器,它利用了文本和视觉数据的多模态信息,并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力,适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA,VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性,表明多模态图变换器优于 Transformer 模型基线。
Apr, 2023