Nov, 2022

基于目标和上下文感知 Transformer 的高效零样本视觉检索

TL;DR该研究提出了一种零样本深度学习架构 TCT(Target and Context-aware Transformer),结合目标和上下文信息进行图像搜索,表现出类人的搜索效率,在具有挑战性的视觉搜索任务中超越最先进的模型,并在具有不协调上下文的不变视觉搜索下展现出灵活的搜索方式。