Oct, 2022

MMGA:基于图形对齐的多模式学习

TL;DR本文提出了一个新的多模态预训练框架 MMGA,它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制,将自监督信息注入到图像和文本编码器的优化中,同时使用图像和文本模态的信息来指导图形编码器学习。实验结果表明,该模型在 Instagram 数据集上表现良好,能提高粉丝预测任务的性能;同时,我们也公开了包含 60,000 个用户、基于 200 万帖子标注的第一个图形多模态数据集,以便于未来的研究。