Mar, 2022

SeqTR: 一种简单而通用的视觉定位网络

TL;DR本文提出了一个名为SeqTR的简单且通用的网络,用于视觉定位任务和指代表达理解任务,通过将视觉定位问题视为图像和文本输入的点预测问题,可以在SeqTR网络中统一视觉定位任务而无需任务特定的分支或头,使用简单的交叉熵损失进一步降低了手工损失函数的复杂性,并且在五个基准数据集上进行的实验证明了SeqTR的可行性和优越性。