增强图像 - 标题对：用于基于视觉和语言模型的语义保留的图像 - 标题对增强

Nov, 2023

增强图像 - 标题对：用于基于视觉和语言模型的语义保留的图像 - 标题对增强

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models

Jingru Yi, Burak Uzkent, Oana Ignat, Zili Li, Amanmeet Garg...

TL;DR通过数据增强和使用大规模图像和语言数据集（如 CLIP）进行预训练的图像编码器，提出了一种鲁棒的短语基础模型，用于低层次视觉任务中的关键字本体识别，并通过多种指标在常用数据集上展示了先进性能。

Abstract

grounding-based vision and language models have been successfully applied to low-level vision tasks, aiming to precisely locate objects referred in captions. The effectiveness of grounding representation learning heavily relies on the scale of the training dataset. Despite being a usef

grounding-based vision data augmentation phrase grounding model image-caption correspondence large-scale image and language datasets

发现论文，激发创造

细粒度图像 - 文本检索中的配对交叉模态数据增强

该论文研究了一个生成文本 - 图像对以提高细粒度图像 - 文本跨模态检索任务训练的开放性研究问题，并提出了一种新的框架用于成对数据增强，以揭示 StyleGAN2 模型的隐藏语义信息。

Jul, 2022

应用扩散模型进行图像字幕的多模态数据增强

本研究提出了一种基于多模态数据增强技术的图像字幕生成方法，旨在解决图像字幕对齐困难的问题。实验证明，本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集，从而提高模型的训练效率和预测准确性。

May, 2023

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

通过合成对的方法改善文本式图像描述的跨模态对齐

本研究提出了一种新方法，通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像，并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征，同时利用图像中的显著对象来增强模态对齐的学习。实验证明，该方法在基准数据集上取得了最先进的性能。

Dec, 2023

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020

PairAug：增强图像 - 文本配对在放射学中的应用

我们设计了一种 Pairwise Augmentation (PairAug) 方法，旨在同时增强医学图像和文本数据，通过 Inter-patient Augmentation (InterAug) 分支生成使用合成的放射学报告的放射学图像，并通过 Intra-patient Augmentation (IntraAug) 分支使用新生成的报告来操作图像，从而在各种下游任务中显着优于单独扩展图像或文本数据以及先进的医学 VLP 基线。

Apr, 2024

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021

基于图像的语言预训练

本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型，它可以同时学习目标检测和短语 grounding 任务以提升自身性能，并利用海量的图像文本对进行自我训练，从而获得语义丰富的表示。实验结果表明，GLIP 的表示具有较强的零样本迁移能力和准确性，可在各种目标识别任务上实现最先进的结果。

Dec, 2021

探索利用检索增强的伪造句子生成进行无注释图像字幕生成

提出了一种新的策略 “基于 LPM 和检索增强学习” 来训练图像说明器，该策略利用大型预训练模型（LPM）的先验知识作为监督，并通过检索过程来进一步增强其有效性，在不使用昂贵的预训练过程的情况下，超越了目前最先进的预训练模型，并通过使用生成的伪句子作为弱监督来提高 1％半监督图像说明基准的性能。

Jul, 2023

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022