LocCa：具有位置感知字幕的视觉预训练

Mar, 2024

LocCa：具有位置感知字幕的视觉预训练

LocCa: Visual Pretraining with Location-aware Captioners

Bo Wan, Michael Tschannen, Yongqin Xian, Filip Pavetic, Ibrahim Alabdulmohsin...

TL;DR在本文中，我们提出了一种简单的可感知位置的图像预训练方法（LocCa），它使用一个简单的图像标题生成任务接口，在图像像素输入的条件下教导模型以读取丰富的信息，如边界框坐标和标题。通过编码器 - 解码器体系结构的多任务能力，我们展示了图像标题生成器在预训练期间可以轻松处理多个任务。我们的实验证明 LocCa 在本地化底层任务上明显优于标准的标题生成器，并且在整体任务上保持可比较的性能。

Abstract

image captioning has been shown as an effective pretraining method similar to contrastive pretraining. However, the incorporation of locat

image captioning pretraining location-aware information visual pretraining bounding box coordinates

发现论文，激发创造

图像字幕生成器也是可扩展的视觉学习者

本文通过仔细匹配训练数据、计算和模型容量，公平地比较了对比预训练和图像字幕等两种预训练策略，并发现仅采用图像字幕训练也很有效，既可以产生与对比预训练编码器竞争的视觉编码器，也可以在视觉和语言任务上超越它们。

Jun, 2023

CoCa: 对比式字幕生成模型是图像文本基础模型

本文介绍了一种名为 CoCa 的对比式注解器，它使图像和文本的编码器和解码器能够预先训练。与标准的编码器 - 解码器变压器不同的是，在解码器的前半段中省略跨关注，以编码单模态文本表示形式，并级联其余解码器层，以便对图像编码器进行跨模态图像文本表示形式的跨关注。CoCa 以无缝方式将所有标签视为文本进行训练，并在各种视觉任务上实现了最先进的性能。

May, 2022

利用标题注释学习视觉表征

使用图像和标题的联合信息进行预训练可提高图像表征能力，该方法通过 image-conditioned masked language modeling（ICMLM）任务来实现，训练出的表征能够成功应用于多种目标任务。

Aug, 2020

像素对齐的语言模型

本研究探讨了如何使用大型语言模型进行定位任务，包括词语对应定位和参照定位，通过模型的输入和输出使用位置作为参数来生成图像描述，实现稠密单词定位，并在多个视觉和语言任务中达到了最先进的性能。

Dec, 2023

LocTex: 从本地文本监督中学习数据高效视觉表征

本文提出了一种名为 LocTex 的计算机视觉方法，它利用了低成本的本地化文本标注和鼠标轨迹，通过对图像和标题的对比预训练和监督跨模态关注图，从而提供粗略的本地化信号，从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化，可以转移到各种下游视觉任务中，并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍，同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下，LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。

Aug, 2021

无需定位监督学习生成有依据的视觉描述

通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中，提高了图像标题生成模型的文本本地化能力，而不需要使用本地化监督或在推理过程中引入额外的计算。

Jun, 2019

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

VIVO：用于新颖物体字幕生成的视觉词汇预训练

通过 VIVO 预训练模型，该论文提出了一种使用无注释图像和标签数据进行预训练的方法，通过预训练一个多层转换器模型来学习视觉词汇，并验证了其在图像字幕生成中的有效性。

Sep, 2020

临床准确且可解释的双向字幕模型

本研究通过双向字幕法对放射学报告进行预训练，与对比性训练方法相比，表明字幕法预训练不仅可以产生具有竞争力的视觉编码器，还可以生成具有临床相关性的报告和针对性的交互性输出。

Oct, 2023

从儿童身上学习：通过课程改进图像 - 字幕预训练

通过引入符合儿童语言学习理论的课程式学习框架，逐步增加每个标题的概念数量，为图像 - 标题预训练建立成果，以显著提高零样本图像分类和目标检测性能等各种预测任务。

May, 2023