Aug, 2023

使用变换器将两个流编码器统一,用于跨模态检索

TL;DR本研究通过使用两种 Transformer 编码器架构来统一图像和文本之间的差异,提出了一种基于层次对齐 Transformer 的跨模态检索框架,通过多层次的对齐方案,对图像和文本进行了更好的交互和对齐,实验证明该框架优于其他 SOTA 基线,并在两个基准数据集上实现了显著的提升。