Nov, 2022

YORO -- 轻量级端到端视觉定位

TL;DR本文介绍了一种名为 YORO 的多模态 Transformer 编码器架构,用于视觉定位任务,其采用单阶段设计,不使用 CNN 背景,通过消耗自然语言查询、图像块和可学习的检测令牌来预测所参考对象的坐标,并提出了新的贴片文本对齐损失。通过在不同的数据集中进行广泛的实验,该方法在速度和精度之间取得了更好的平衡,支持实时推理,并在这一类(单阶段方法)中具有最佳的速度/精度权衡,并击败了所有现有方法。