BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal algorithmic reasoning
搜索结果 - 1
文本和图像预训练在多模态算法推理中的整合
我们提出了一个基于多模态算法推理的神经网络解决方案,用于解决专为 6-8 岁儿童设计的视觉语言难题,我们的模型基于两个预训练模型,分别从文本和图像中提取特征,并通过融合层和注意机制进行特征整合。实验结果表明,在智能挑战数据集的拼图分割样式下
→
PDF
21 days ago
Prev
Next