Aug, 2023

一种辅助引入语义信息的多模态视觉编码模型

TL;DR基于刺激图像和相关文本信息的多模态视觉信息编码网络模型,将口头语义信息作为新信息嵌入视觉编码模型,通过 Transformer 网络对图像和文本特征信息进行对齐,构建多模态特征空间。实验结果表明该模型的性能优于先前的模型,并且消融实验证明我们提出的模型更好地模拟了大脑的视觉信息处理。