Jun, 2024

文本和图像预训练在多模态算法推理中的整合

TL;DR我们提出了一个基于多模态算法推理的神经网络解决方案,用于解决专为 6-8 岁儿童设计的视觉语言难题,我们的模型基于两个预训练模型,分别从文本和图像中提取特征,并通过融合层和注意机制进行特征整合。实验结果表明,在智能挑战数据集的拼图分割样式下,我们提出的综合分类器具有卓越的性能,验证了多模态预训练表示的有效性。