TiMix：文本感知的图像融合用于高效视觉语言预训练

AAAIDec, 2023

TiMix：文本感知的图像融合用于高效视觉语言预训练

TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training

Chaoya Jiang, Wei ye, Haiyang Xu, Qinghao Ye, Ming Yan...

TL;DRSelf-supervised Multi-modal Contrastive Learning (SMCL) 模型通过整合视觉和语言模态，使现代视觉 - 语言预训练（VLP）模型在无监督学习方面取得显著的进展。然而，由于网络采集的文本 - 图像对中存在噪声问题，在 SMCL 模型中增加训练数据量会带来相当大的计算成本和数据效率问题。为了提高 VLP 模型的数据效率，我们提出了 Text-aware Image Mixing（TiMix）方法，将基于混合的数据增强技术应用到 SMCL 模型中，能够在显著提升性能的同时，不会显著增加计算开销。我们从互信息（MI）的角度对 TiMix 进行了理论分析，表明混合的数据样本能够隐式地作为对比损失的正则化器。实验结果表明，与现有方法相比，即使减少了训练数据量并缩短了训练时间，TiMix 在下游任务上表现出了可比较的性能。该研究从实证和理论上证明了数据混合在数据高效和计算可行的 VLP 中的潜力，为 VLP 模型在实际场景中的广泛应用带来了好处。

Abstract

self-supervised multi-modal contrastive learning (SMCL) remarkably advances modern Vision-Language Pre-training (VLP) models by aligning visual and linguistic modalities. Due to noises in web-harvested text-image pairs, however, scaling up training data volume in SMCL presents consider

self-supervised multi-modal contrastive learning vlp models text-aware image mixing data efficiency computational cost

发现论文，激发创造

通过跨模态 CutMix 进行非成对视觉 - 语言预训练的 VLMixer

本文提出一种名为跨模态 CutMix（CMC）的数据增强方法，用于隐式的跨模态对齐学习，在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时，该论文还提出了一种新的无对齐图像文本预训练方法，名为 VLMixer，通过将 CMC 与对比学习相结合，可以更好地对齐不同视图中的实例。实验结果表明，VLMixer 可以超过以前的无对齐 VLP 方法。

Jun, 2022

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

三重对比学习视觉语言预训练

本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架，通过交叉模式对齐和内部模态自我监督来提高学习的代表性，并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息，取得了在图像 - 文本检索和视觉问答等任务中的优异表现。

Feb, 2022

SelfMix: 自我混合训练抵御文本标签噪声的稳健学习

本文提出一种用于处理文本分类任务中标签噪声的简单而有效的方法 SelfMix，该方法使用高斯混合模型来分离样本，并利用半监督学习。实验结果表明，我们的方法在不同类型的文本噪声下，比设计用于文本和视觉数据的强基线表现更优秀。

Oct, 2022

MixGen：一种新型多模态数据增强方法

本文介绍 MixGen：一种联合数据增强技术，利用插值和拼接文本的方式生成并保留了图像和文本之间的语义关系，已被应用于现有的一些数据处理流程中，我们在 CLIP、ViLT、ALBEF、TCL 等 4 个框架上进行验证，发现 MixGen 可以显著提高模型性能，尤其在 ALBEF 预训练中，MixGen 在图像文本检索、视觉推理和其他相关任务中获得了较大的提升。

Jun, 2022

MixText: 语言知识驱动的隐藏空间插值半监督文本分类

提出了 MixText，这是一种用于文本分类的半监督学习方法，利用我们新设计的数据增强方法 TMix，在隐藏空间插值文本来创建大量的增强训练样本。混合标记的、未标记的和增强的数据，MixText 在几个文本分类基准测试中显著优于当前的预训练和微调模型以及其他最先进的半监督学习方法，尤其是在监督极度有限的情况下。我们已经在此 https URL 上公开发布了我们的代码。

Apr, 2020

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

改进基于文本引导的图像修复的跨模态对齐

本研究提出了一种基于视听语言预训练模型和对跨模态对齐知识的改进的跨模态对齐模型的图像修复方法，通过在两个流行的视听语言数据集上的实验表明，该模型相对于其他强竞争对手的性能达到了最佳水平。

Jan, 2023

通过潜在压缩学习在交替图像文本数据上进行视觉模型预训练

通过最大化因果注意模型的输入和输出之间的相互信息，我们提出了一种名为 Latent Compression Learning（LCL）的视觉模型预训练方法，以有效利用交叉图像 - 文本数据，实现对齐图像 - 文本数据进行预训练并生成强大的视觉表示。

Jun, 2024

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023

TiMix：文本感知的图像融合 用于高效视觉语言预训练

TiMix：文本感知的图像融合用于高效视觉语言预训练