多模态图基准
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
本综述对 300 篇以上的文章进行了仔细审查,重点关注了两个主要方面的知识图谱 (KG) 相关研究,即 KG 驱动的多模式学习和多模式知识图谱 (MMKG),通过定义 KG 和 MMKG,探讨了它们的构建进展,以及 KG 驱动的多模式学习任务和 MMKG 任务,为相关研究提供了定义、评估基准和关键见解,最后讨论了当前的挑战和新兴趋势,如大型语言模型和多模式预训练策略的进展。本综述旨在作为 KG 和多模式学习研究领域的全面参考,为已经参与或考虑进行 KG 和多模式学习研究的研究人员提供洞察力,支持未来的工作。
Feb, 2024
这篇文章介绍了将图谱模态集成到大型语言模型中的挑战,并提出了一个用于评估和发展图谱 - 语言模型的问答数据集 GraphextQA,同时介绍了一种名为 CrossGNN 的基准模型。通过实验证明了使用图谱的有用性和该任务的困难性。
Oct, 2023
提出了一种利用多模态知识图 (MMKGs) 进行多模态推理的方法 (MR-MKG),通过利用多模态知识图 (MMKGs) 跨模态地学习丰富的语义知识,显著提高了大型语言模型 (LLMs) 在多模态推理中的能力。通过在仅使用 LLM 参数的 2.25% 进行训练,MR-MKG 在多模态问答和多模态类比推理任务上取得了优越的性能,胜过了之前的最新模型。
Jun, 2024
MMKG 是一个包含数字特征和图像链接的三个知识图谱集合,可以帮助多重关系链接预测和实体匹配社区,并且具有潜力促进知识图谱的新型多模态学习方法的发展。我们通过大量实验验证了 MMKG 在同 As 链接预测任务中的效用,并显示出多元特征类型学习对这一任务的益处。
Mar, 2019
机器学习在医生对病人的发展趋势获得洞察力方面受到越来越多的关注。我们提出了一种名为多模态 UMLS 图神经网络学习(MMUGL)的新方法,用于使用基于统一医学语言系统的知识图上的图神经网络学习医学概念的有意义的表示。这些表示被聚合表示整个病人就诊情况,然后输入到序列模型中以在病人的多次医院就诊的粒度上进行预测。我们通过整合先前的医学知识并考虑多种模态来提高性能。我们将我们的方法与用于不同粒度上学习表示的现有架构在 MIMIC-III 数据集上进行比较,并展示出我们的方法优于这些方法。结果表明了基于先前的医学知识的多模态医学概念表示的重要性。
Jul, 2023
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明,不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化,复杂性和健壮性的问题,对于未来研究具有重要的挑战性,包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。
Jul, 2021