Mar, 2024

LocCa:具有位置感知字幕的视觉预训练

TL;DR在本文中,我们提出了一种简单的可感知位置的图像预训练方法(LocCa),它使用一个简单的图像标题生成任务接口,在图像像素输入的条件下教导模型以读取丰富的信息,如边界框坐标和标题。通过编码器 - 解码器体系结构的多任务能力,我们展示了图像标题生成器在预训练期间可以轻松处理多个任务。我们的实验证明 LocCa 在本地化底层任务上明显优于标准的标题生成器,并且在整体任务上保持可比较的性能。