Strip-MLP:视觉 MLP 的高效标记交互
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。
Jun, 2024
提出了一种名为 CLIPTeacher 的新学习框架,用于各种基于像素分类的分割模型,不引入任何显式的掩码建议者或更改 CLIP 的结构,并利用已知区域和忽略区域来取得较大的性能提升。
Oct, 2023
本文旨在通过引入多对多局部关系建模来增强数据效率,从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练(MLIP)框架,通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据,同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示,MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。
Jan, 2024
通过引入一个新的特征融合模块,本研究提出了一种解决使用轻量级网络的语言引导范式的方法,该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐,并展示出优于之前的最佳方法的性能。
Oct, 2023
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024
本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互,并在 e-commerce 多模态数据集上展示了更好的下游任务表现。
Sep, 2021
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得 5.6〜35.0%和 16.8〜46.1%的 R@1 提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对 MLLMs 的多方面使用的探索。
Nov, 2023