多模态图学习的生成任务
本研究提出了一种多模态图学习框架(MMGL)来预测疾病,该框架对每种模式的特征进行聚合,通过自适应图学习来捕获患者之间的内在联系,并在两个疾病预测任务上获得了更好的性能。
Mar, 2022
本文提出了一个新的多模态预训练框架 MMGA,它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制,将自监督信息注入到图像和文本编码器的优化中,同时使用图像和文本模态的信息来指导图形编码器学习。实验结果表明,该模型在 Instagram 数据集上表现良好,能提高粉丝预测任务的性能;同时,我们也公开了包含 60,000 个用户、基于 200 万帖子标注的第一个图形多模态数据集,以便于未来的研究。
Oct, 2022
本文介绍了一种多模式图形学习的蓝图,该模型通过将不同模态的数据集组合成图形,并使用图形来利用跨模态的依赖关系,同时利用图形作为指导提供了图形学习方法的设计方案和指导,以解决在多模态数据集中学习的基本挑战。
Sep, 2022
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
本综述对 300 篇以上的文章进行了仔细审查,重点关注了两个主要方面的知识图谱 (KG) 相关研究,即 KG 驱动的多模式学习和多模式知识图谱 (MMKG),通过定义 KG 和 MMKG,探讨了它们的构建进展,以及 KG 驱动的多模式学习任务和 MMKG 任务,为相关研究提供了定义、评估基准和关键见解,最后讨论了当前的挑战和新兴趋势,如大型语言模型和多模式预训练策略的进展。本综述旨在作为 KG 和多模式学习研究领域的全面参考,为已经参与或考虑进行 KG 和多模式学习研究的研究人员提供洞察力,支持未来的工作。
Feb, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
机器学习在医生对病人的发展趋势获得洞察力方面受到越来越多的关注。我们提出了一种名为多模态 UMLS 图神经网络学习(MMUGL)的新方法,用于使用基于统一医学语言系统的知识图上的图神经网络学习医学概念的有意义的表示。这些表示被聚合表示整个病人就诊情况,然后输入到序列模型中以在病人的多次医院就诊的粒度上进行预测。我们通过整合先前的医学知识并考虑多种模态来提高性能。我们将我们的方法与用于不同粒度上学习表示的现有架构在 MIMIC-III 数据集上进行比较,并展示出我们的方法优于这些方法。结果表明了基于先前的医学知识的多模态医学概念表示的重要性。
Jul, 2023