MMGA：基于图形对齐的多模式学习

Oct, 2022

MMGA: Multimodal Learning with Graph Alignment

Xuan Yang, Quanjin Tao, Xiao Feng, Donghong Cai, Xiang Ren...

TL;DR本文提出了一个新的多模态预训练框架 MMGA，它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制，将自监督信息注入到图像和文本编码器的优化中，同时使用图像和文本模态的信息来指导图形编码器学习。实验结果表明，该模型在 Instagram 数据集上表现良好，能提高粉丝预测任务的性能；同时，我们也公开了包含 60,000 个用户、基于 200 万帖子标注的第一个图形多模态数据集，以便于未来的研究。

Abstract

multimodal pre-training breaks down the modality barriers and allows the individual modalities to be mutually augmented with information, resulting in significant advances in representation learning. However, graph modality, as a very general and important form of data, cannot be easil

multimodal pre-training graph alignment social media user representation learning multimodal dataset

发现论文，激发创造

多模态图学习的生成任务

多模态图学习 (MMGL) 是一个通用、系统化的框架，用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。

Oct, 2023

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

基于多模态图学习的疾病预测

本研究提出了一种多模态图学习框架（MMGL）来预测疾病，该框架对每种模式的特征进行聚合，通过自适应图学习来捕获患者之间的内在联系，并在两个疾病预测任务上获得了更好的性能。

Mar, 2022

MTAG: 模态 - 时间注意力图用于不对齐的人类多模态语言序列

本文提出了可解释的基于图的神经模型 MTAG，通过构建多模态序列数据的图，设计了 MTAG 融合操作和动态修剪和读取技术。MTAG 仅关注图中重要的交互，可在情感分析和情感识别基准测试中实现最先进的性能，同时使用了显著更少的模型参数。

Oct, 2020

多模态知识图谱下的多模态推理

提出了一种利用多模态知识图 (MMKGs) 进行多模态推理的方法 (MR-MKG)，通过利用多模态知识图 (MMKGs) 跨模态地学习丰富的语义知识，显著提高了大型语言模型 (LLMs) 在多模态推理中的能力。通过在仅使用 LLM 参数的 2.25% 进行训练，MR-MKG 在多模态问答和多模态类比推理任务上取得了优越的性能，胜过了之前的最新模型。

Jun, 2024

多模态图学习：一项调查

多模态图学习的比较分析，阐明不同图类型的多模态学习方式，探索主要学习技术的特点，以及多模态图学习的重要应用和未来方向。

Feb, 2024

基于多粒度跨模态对齐的开放词汇语义分割学习

提出了一种多粒度跨模态对齐 (MGCA) 框架，通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题，并采用硬采样策略促进精细的跨模态对比学习，进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后，该方法在性能上显著超过了现有的方法，验证了其有效性和高效性。

Mar, 2024

多模态图基准

多模态图学习基准 (MM-GRAPH) 是首个综合多模态图基准，涵盖文本和视觉信息，旨在促进多模态图学习研究并推动更先进、更稳健的图学习算法的发展。

Jun, 2024

LLMGA: 基于多模态大型语言模型的生成助手

该研究介绍了一种基于多模态大型语言模型的生成助手（LLMGA），利用大型语言模型（LLM）中内在的知识和理解能力，帮助用户进行图像生成和编辑，通过精确控制生成提示实现对稳定扩散（SD）的控制，以提供更精细、准确的内容和更直观的网络解释性，同时还提出了一个两阶段的训练方案来优化 SD 的生成结果，并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明，LLMGA 具有很好的生成能力，并能以交互方式在更广泛的应用中发挥作用。

Nov, 2023

噪声的威力：朝着统一的多模态知识图表示框架

通过提出一种基于 Transformer 架构的 SNAG 方法，结合多模态实体特征在知识图谱中进行鲁棒的集成，本研究在多模态预训练的基础上，展示了在多模态知识图谱完成和多模态实体对齐两个任务中的领先性能，同时还具有增强其他现有方法的稳定性和性能改进的功能。

Mar, 2024