IDA-VLM: 基于ID感知的大型视觉语言模型,实现电影理解
这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.
Mar, 2022
本文介绍了一个 LVLM-eHub综合评估平台,使用6种多模态能力定量评估47个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的LVLM评估流水线提供了启示。
Jun, 2023
我们提出了CoVLM框架,通过引入通信令牌实现视觉感知与LLMs之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉-语言任务中取得了最先进的表现。
Nov, 2023
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到60亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了MLLMs的视觉感知能力。
Jan, 2024
RelationVLM是一种大型视觉语言模型,通过多阶段关系感知训练方案和相应的数据配置策略,使其具备理解多个图像或视频内的多个层次和类型关系的能力,该工作促进了LVLM的发展,使其能够支持更广泛的人工通用智能应用。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
该研究论文提出了一种名为LM4LV的框架,它能够使冻结的大型语言模型(LLM)解决一系列的低层次视觉任务,展示了LLM在低层次视觉中的强大潜力,并且架起了MLLM和低层次视觉任务之间的桥梁。
May, 2024
通过利用图像和视频之间的视觉相似性,本文介绍了一种成本效益较高的视频-LVLM模型,通过改进模型结构、引入创新的训练策略,并确定最有效的视频指令数据类型,实现了将基于图像的LVLM模型高效演化为视频-LVLM模型,并在有限资源环境下强调了时间理解的视频培训数据的重要性,提高了模型性能。
Jun, 2024
在这项研究中,我们提出了一种简单而有效的训练方法,实现了没有视觉编码器的纯视觉语言模型,并通过桥接视觉语言表示和增强视觉识别能力的策略推出了EVE模型,它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的VLMs。
Jun, 2024