通过自我改进增强大型视觉语言模型中的视觉 - 语言模态对齐
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
使用 Vision-Language Models 和 HTML 生成结构化问题的图像化表示,并使用相同的 Vision-Language Model 回答问题。该方法在数学任务和推理任务中提高了性能。
Jan, 2024
采用自我训练方法提高大型视觉语言模型在图像理解方面的能力,通过自动生成偏好图像描述来构建图像理解的偏好数据集,利用少量的现有数据进行自我改进,验证了其在七个不同基准测试中的有效性和潜力。
May, 2024
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。
Nov, 2023
通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。
Aug, 2023
通过提出的全 Transformer 模型进行视觉 - 语言预训练(VLP),采用 Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉 - 语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。
Jun, 2021