多模态图学习的生成任务

Oct, 2023

Multimodal Graph Learning for Generative Tasks

Minji Yoon, Jing Yu Koh, Bryan Hooi, Ruslan Salakhutdinov

TL;DR多模态图学习 (MMGL) 是一个通用、系统化的框架，用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。

Abstract

multimodal learning combines multiple data modalities, broadening the types and complexity of data our models can utilize: for example, from plain text to image-caption pairs. Most multimodal learning algorithms

multimodal learning multimodal graph learning generative tasks pretrained language models complex relationships

发现论文，激发创造

多模态图学习：一项调查

多模态图学习的比较分析，阐明不同图类型的多模态学习方式，探索主要学习技术的特点，以及多模态图学习的重要应用和未来方向。

Feb, 2024

基于多模态图学习的疾病预测

本研究提出了一种多模态图学习框架（MMGL）来预测疾病，该框架对每种模式的特征进行聚合，通过自适应图学习来捕获患者之间的内在联系，并在两个疾病预测任务上获得了更好的性能。

Mar, 2022

MMGA：基于图形对齐的多模式学习

本文提出了一个新的多模态预训练框架 MMGA，它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制，将自监督信息注入到图像和文本编码器的优化中，同时使用图像和文本模态的信息来指导图形编码器学习。实验结果表明，该模型在 Instagram 数据集上表现良好，能提高粉丝预测任务的性能；同时，我们也公开了包含 60,000 个用户、基于 200 万帖子标注的第一个图形多模态数据集，以便于未来的研究。

Oct, 2022

图上多模态学习

本文介绍了一种多模式图形学习的蓝图，该模型通过将不同模态的数据集组合成图形，并使用图形来利用跨模态的依赖关系，同时利用图形作为指导提供了图形学习方法的设计方案和指导，以解决在多模态数据集中学习的基本挑战。

Sep, 2022

多模态图基准

多模态图学习基准 (MM-GRAPH) 是首个综合多模态图基准，涵盖文本和视觉信息，旨在促进多模态图学习研究并推动更先进、更稳健的图学习算法的发展。

Jun, 2024

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

知识图谱应用于多模态学习：综述

本综述对 300 篇以上的文章进行了仔细审查，重点关注了两个主要方面的知识图谱 (KG) 相关研究，即 KG 驱动的多模式学习和多模式知识图谱 (MMKG)，通过定义 KG 和 MMKG，探讨了它们的构建进展，以及 KG 驱动的多模式学习任务和 MMKG 任务，为相关研究提供了定义、评估基准和关键见解，最后讨论了当前的挑战和新兴趋势，如大型语言模型和多模式预训练策略的进展。本综述旨在作为 KG 和多模式学习研究领域的全面参考，为已经参与或考虑进行 KG 和多模式学习研究的研究人员提供洞察力，支持未来的工作。

Feb, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

UMLS 知识图谱上的多模态图学习

机器学习在医生对病人的发展趋势获得洞察力方面受到越来越多的关注。我们提出了一种名为多模态 UMLS 图神经网络学习（MMUGL）的新方法，用于使用基于统一医学语言系统的知识图上的图神经网络学习医学概念的有意义的表示。这些表示被聚合表示整个病人就诊情况，然后输入到序列模型中以在病人的多次医院就诊的粒度上进行预测。我们通过整合先前的医学知识并考虑多种模态来提高性能。我们将我们的方法与用于不同粒度上学习表示的现有架构在 MIMIC-III 数据集上进行比较，并展示出我们的方法优于这些方法。结果表明了基于先前的医学知识的多模态医学概念表示的重要性。

Jul, 2023

知识增强的多模态学习调查

该研究调查了多模态学习中的视觉语言学习及其与知识图谱的结合，提出了一种基于知识图谱的视觉语言学习模型以解决一般性知识方面的问题。

Nov, 2022