Mar, 2024
FSMR:一种基于特征交换的多模态推理方法,结合文本和视觉线索
FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues
Shuang Li, Jiahua Wang, Lijie Wen
TL;DR该论文介绍了一种名为特征交换多模态推理(FSMR)模型的方法,通过特征交换来增强多模态推理,提供了图像和文本的有效特征表示,并加强了模型对图像和文本之间相互作用的理解,通过多模态交叉注意机制实现了文本和视觉信息的联合建模,实验证明 FSMR 在各种性能指标上优于基准模型。