Pix2seq: 一种用于目标检测的语言建模框架

Sep, 2021

Pix2seq: 一种用于目标检测的语言建模框架

Pix2seq: A Language Modeling Framework for Object Detection

Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton

TL;DRPix2Seq是一种简单且通用的目标检测框架，不同于现有的方法，它将目标检测视为一种基于观察像素输入的语言建模任务，并通过训练神经网络来感知图像并生成所需的序列，与高度专业化和精心优化的检测算法相比，在具有挑战性的COCO数据集上实现了有竞争力的结果

Abstract

This paper presents pix2seq, a simple and generic framework for object detection. Unlike existing approaches that explicitly integrate prior knowledge about the task, we simply cast →