ICLRSep, 2021

Pix2seq: 一种用于目标检测的语言建模框架

TL;DRPix2Seq 是一种简单且通用的目标检测框架,不同于现有的方法,它将目标检测视为一种基于观察像素输入的语言建模任务,并通过训练神经网络来感知图像并生成所需的序列,与高度专业化和精心优化的检测算法相比,在具有挑战性的 COCO 数据集上实现了有竞争力的结果