Mar, 2024

FSMR:一种基于特征交换的多模态推理方法,结合文本和视觉线索

TL;DR该论文介绍了一种名为特征交换多模态推理(FSMR)模型的方法,通过特征交换来增强多模态推理,提供了图像和文本的有效特征表示,并加强了模型对图像和文本之间相互作用的理解,通过多模态交叉注意机制实现了文本和视觉信息的联合建模,实验证明 FSMR 在各种性能指标上优于基准模型。