SyncMask:时尚中心化视觉-语言预训练的同步注意屏蔽
本研究介绍了一种名为ALBEF的对齐图像和文本表示的方法,该方法利用交叉模态注意力通过对比损失对齐视觉和语言特征,以实现更可靠的视觉和语言表征学习。研究表明,该方法在多种下游视觉语言任务上实现了最好的性能。
Jul, 2021
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在LXMERT模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本文介绍了一种新的VLP方法:MLIM,它使用Masked Language Modeling和Image Reconstruction两种损失函数以及Modality Aware Masking技术来增强语言和图片之间的交互,并在e-commerce多模态数据集上展示了更好的下游任务表现。
Sep, 2021
利用对比损失进行的自监督视觉-语言预训练虽然有效,但由于双流体系结构仅在全局层面上对齐图像和文本表示法,因此忽略了细粒度对齐。本文提出了一种单通道体系结构,使用两个新任务在多个层次(即全局、细粒度图块-令牌和概念/语义层次)上对齐图像和语言,实现了更细粒度的对齐和更强大的数据效率,这两个新任务是对称跨模态重建和伪标签关键字预测。
Mar, 2022
本文提出了FashionViL,一个针对时尚领域的视觉语言(V+L)表征学习框架,包含两个周到设计的预训练任务:多视角对比学习和伪属性分类学习,以及一个基于Transformer的灵活多用途模型架构,将其广泛适用于各种V+L任务,并在5个下游任务上取得了最佳成果。
Jul, 2022
本文研究如何使用掩码信号建模来实现视觉和语言(V + L)表示学习,提出了联合掩码视觉和语言建模的方法,通过不同的模态互相重构,隐式地学习语言标记和图像补丁的交叉模态对齐,并在各种V + L任务中实现了最先进的性能。
Aug, 2022
本文提出了一种新的跨模态时尚图像合成方法——MaskCLIP,并进一步构建了一个名为ARMANI的统一交叉模态时尚设计师,它能够根据真实图像的控制信号分布对其进行图像合成,且在多项合成任务中表现出色,生成的图像效果逼真自然。
Aug, 2022
设计一种面向时尚领域的多模式表达模型,使用视觉转换器架构代替预训练模型BERT,实现端到端框架,并使用遮蔽图像重构实现对时尚领域的细粒度理解。该模型没有使用额外的预处理模型(如ResNet),能轻松推广到各种匹配和生成任务中,并得到了提取(rank@5: 17%)和识别(准确度: 3%)任务结果的明显改进。
Oct, 2022
我们提出了一个语义增强的视觉-语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉-语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
通过对比图像输入,对每个文本标记的预测值差异提供了强大的视觉关联指导,我们提出了对每个文本标记赋予不同贡献的方法,名为Contrastive ALignment (CAL)。我们的实验证明,CAL方法在各种基准数据集上始终改善了不同类型的VLM,并且与其他数据调整策略相比,我们的方法具有最小的额外计算开销。
May, 2024