有效的唇语识别的互信息最大化
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互,并在 e-commerce 多模态数据集上展示了更好的下游任务表现。
Sep, 2021
本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器,与之相结合的迭代式多模态交互机制及语言特征重建技术,在指代图像分割的任务中取得了很好的效果。
May, 2023
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域,提出了一个用于图像文本对比学习(ITC)目标的焦点损失,并进行多模态数据增强以进行自我监督学习。
Apr, 2023
本文旨在通过引入多对多局部关系建模来增强数据效率,从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练(MLIP)框架,通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据,同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示,MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。
Jan, 2024
本篇论文提出了基于图像 - 短语建模的本地对齐(LAIP)框架,其中包括双向注意力加权本地对齐(BidirAtt)和掩码短语建模(MPM)模块。实验证明,LAIP 框架在 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 数据集上相比于现有方法具有更好的性能。
Jun, 2024
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
通过在大规模语言模型中生成详细描述的长标题,我们提出了一种动态采样子标题的方法,以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练,实验证明该方法在多种下游任务上具有明显优势。
Mar, 2024
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本文通过一系列实证研究确认了基于像素的遮罩图像建模存在的限制,并提出一种利用来自浅层的低级特征辅助像素重建的新方法。将该设计纳入基本方法 MAE 中,我们减少了基于像素的遮罩图像建模的建模能力浪费,提高了其收敛性并在多个下游任务中取得了实质性的改进。据我们所知,我们是首次系统研究多级特征融合在类似标准 Vision Transformer(ViT)的各向同性架构中的应用。值得注意的是,当应用于较小的模型(例如 ViT-S)时,我们的方法在微调、线性探测和语义分割等方面取得了显著的性能提升。代码和模型可在此 https 链接获得。
Aug, 2023