May, 2024

基于相似度引导的多模态融合 Transformer 在社交媒体中的语义地点预测

TL;DR利用相似度引导的多模态融合变压器 (SG-MFT) 来预测社交用户的语义位置,该方法通过使用预训练的大规模视觉 - 语言模型提取高质量特征表示,并引入了相似度引导的交互模块 (SIM) 以减轻异构性和噪声干扰,并且通过相似度感知的特征融合模块 (SFM) 有效地融合了两个模态。实验证明了该方法在处理异构性和保持高效融合中的优越性能。