视觉对齐中的图像识别:优先考虑视觉相似性
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
使用预训练的视觉 - 语言模型对查询图像和细致的文本描述进行对齐可以显著增强零样本性能,因此我们提出了一种加权视觉 - 文本交叉对齐(WCA)方法,该方法通过局部视觉提示技术确定查询图像中的局部视觉区域,并通过创建基于预训练视觉 - 语言模型的相似性矩阵将这些局部视觉区域与细致的描述进行对齐,然后根据此矩阵中的加权相似度开发了一个评分函数来确定查询图像与每个类别的对齐情况,实验证明我们的方法显著提高了零样本性能,结果甚至可以与少样本学习方法相媲美。
Jun, 2024
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本文提出了一种基于图像字幕生成的新型探测方法,用于研究视觉语言预训练模型中跨模态语义对齐的内部机制,发现 VLP 模型对齐的主要是对象和视觉词,忽略了全局语义,还存在固定的句子模式,无视语法和流畅性等问题。
Oct, 2022
本文提出了一种方法,利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释,实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。
Dec, 2023
本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架,通过交叉模式对齐和内部模态自我监督来提高学习的代表性,并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息,取得了在图像 - 文本检索和视觉问答等任务中的优异表现。
Feb, 2022
利用 TOnICS 算法对使用少量成对数据的预训练语言和视觉表示模型进行对齐,从而实现了使用更少的数据在 BERT 和 VinVL 预训练模型上进行映射,超越了 CLIP 在零样本图像检索方面的表现。
Jul, 2022
提出了一种新的度量学习方法 ——Misalign, Contrast then Distill (MCD),该方法利用图像和文本之间的错位作为额外的训练来源,通过预测增强图像和文本之间的连续错位程度,达到了多个分类和检索数据集中最先进的迁移能力。
Dec, 2023
通过 Attentional Vision Calibration (AVC) 技术,针对 Large Vision Language Models (LVLMs) 中出现的盲目令牌(blind tokens)引发的视觉对象细节理解问题,通过动态调整逻辑回归预测以降低对盲目令牌的依赖,从而提高所有令牌的平衡考虑,有效地减少了 LVLMs 中的视觉对象幻觉。
May, 2024
通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。
Jul, 2023