Aug, 2023
使用变换器将两个流编码器统一,用于跨模态检索
Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval
Yi Bin, Haoxuan Li, Yahui Xu, Xing Xu, Yang Yang...
TL;DR本研究通过使用两种 Transformer 编码器架构来统一图像和文本之间的差异,提出了一种基于层次对齐 Transformer 的跨模态检索框架,通过多层次的对齐方案,对图像和文本进行了更好的交互和对齐,实验证明该框架优于其他 SOTA 基线,并在两个基准数据集上实现了显著的提升。