关键词cross-modal attention mechanism
搜索结果 - 5
- 图像 - 文本匹配的先进多模态深度学习架构
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在 - MM多模态视频主题分割与双对比领域适应
基于多模态的视频主题分段器利用视频转录和帧,结合跨模态注意机制,提出了一种双对比学习框架,从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明,我们的解决方案明显优于基准方法,无论是准确度还是可转移性,在域 - 跨模态共识网络用于弱监督时间动作定位
本文提出了一种跨模态共识网络以解决弱监督时间动作定位任务中现有特征提取器提取的不是任务特定特征的问题,并使用了跨模态注意机制和相互学习来产生更有代表性的特征。在 THUMOS14 和 ActivityNet1.2 数据集上的实验结果表明,此 - ICCV人类认知风格下使用整体上下文信息进行图像标题生成的探索
本文探讨利用类人认知风格,即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响,本文首先提出了一种利用双向 LSTM 的相互援助网络结构(MaBi-LSTMs),以获 - 基于关系嵌入的指代表达式 grounding 表示学习
本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法,利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系,并将提取的信息表示为语言导向的视觉关系图。同时,我们还提