Aug, 2021
结构化的多模态特征嵌入和对齐——面向图像-句子检索
Structured Multi-modal Feature Embedding and Alignment for
Image-Sentence Retrieval
TL;DR本文提出了一种新的结构化多模式特征嵌入与对齐模型(SMFEA)来增强图像-句子检索,通过构建视觉和文本片段之间的内在结构和外在交叉模态结构和语义对应关系,使用共享的上下文感知式引用树的新型多模式结构模块联合并显性地学习视觉-文本嵌入和跨模态对齐,将各自模态的片段处理为结构化树编码,通过最大化相应跨模态树节点之间的语义和结构相似性来首次实现了对齐方法的交叉模态结构和语义对应关系.