LocTex: 从本地文本监督中学习数据高效视觉表征

ICCVAug, 2021

LocTex: 从本地文本监督中学习数据高效视觉表征

LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision

Zhijian Liu, Simon Stent, Jie Li, John Gideon, Song Han

TL;DR本文提出了一种名为 LocTex 的计算机视觉方法，它利用了低成本的本地化文本标注和鼠标轨迹，通过对图像和标题的对比预训练和监督跨模态关注图，从而提供粗略的本地化信号，从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化，可以转移到各种下游视觉任务中，并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍，同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下，LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。

Abstract

computer vision tasks such as object detection and semantic/instance segmentation rely on the painstaking annotation of large training datasets. In this paper, we propose →

computer vision annotation loctex visual features pre-training

发现论文，激发创造

VirTex：从文本注释中学习视觉表示

使用 COCO Captions 监督预训练的 VirTex 方法可以在使用更少的图像的情况下，产生与 ImageNet 监督或非监督学习得到的特征所匹配或超越的视觉表征。

Jun, 2020

医学影像和报告的局部表示联合学习

LoVT 是一种面向医学图像的局部表征学习方法，结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习，针对局部任务优化图像预先训练，相比其他常用预训练方法，在 18 个局部任务的评估框架中表现最佳，因此被认为是优选方法。

Dec, 2021

基于细粒度用户注意力的文本到图像生成

提出了基于 Local Narratives 数据集和 TReCS 模型的图像文本生成方法，在视觉的基础上，利用分割掩模等技术实现了更好的图像合成效果。

Nov, 2020

LocCa：具有位置感知字幕的视觉预训练

在本文中，我们提出了一种简单的可感知位置的图像预训练方法（LocCa），它使用一个简单的图像标题生成任务接口，在图像像素输入的条件下教导模型以读取丰富的信息，如边界框坐标和标题。通过编码器 - 解码器体系结构的多任务能力，我们展示了图像标题生成器在预训练期间可以轻松处理多个任务。我们的实验证明 LocCa 在本地化底层任务上明显优于标准的标题生成器，并且在整体任务上保持可比较的性能。

Mar, 2024

LoCo：局部受限无训练布局到图像合成

本文中，我们提出了一种名为 LoCo 的无需训练的布局到图像合成方法，能够通过引入局部化注意约束和填充令牌约束，对个体对象进行精确定位并防止合成对象的不良融合，并成功地集成到现有的文本到图像和布局到图像模型中，在多个基准测试中定性和定量地超越了既有的最先进的无需训练的布局到图像方法，展示了我们方法的优越性。

Nov, 2023

连接视觉和语言的局部叙述

我们提出了一种新的多模态图像标注方法，称为定位叙述，将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像，我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证，具有高度准确性和生产效率，并且在受控图像字幕应用程序中具有实用性。

Dec, 2019

跨注意力控制实现免费本地化文本图像生成

本研究发现，在推论期间通过简单控制交叉注意力图就可以实现本地化生成，同时提高了文本到图像生成模型的组成能力。

Jun, 2023

从自然语言监督中学习可转移的视觉模型

通过预测图像与文本配对来预训练计算机视觉系统，使其可以从自然语言描述中直接学习视觉概念，从而实现零样本迁移，并在多个计算机视觉任务上展现出竞争力。

Feb, 2021

面向检测的图像 - 文本预训练的开放词汇测量

基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像 - 文本对中学习，我们的方法能够利用对比损失学习到新出现的对象 - 语义线索，在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020