关键词multimodal convolutional neural networks
搜索结果 - 2
- ICCV多模态卷积神经网络:图像和文本匹配
本论文提出了多模态卷积神经网络 (m-CNNs),用于匹配图像和句子。该网络结构采用卷积架构来利用图像表示、单词组合和两种模态之间的匹配关系。实验结果表明,我们的 m-CNNs 可以有效地捕捉图像和句子匹配所需的信息,并在 Flickr30 - 野外环境中基于外貌特征的注视估计
本文针对外界复杂的实际应用场景下的视线估计问题,在自然、真实的使用环境中使用 MPIIGaze 数据集进行研究,并提出了一种多模态卷积神经网络的方法,通过跨数据集评估证明该方法显著优于现有的方法。我们还对三个最新数据集上的几种最先进的基于图