IDA-VLM: 基于ID感知的大型视觉语言模型，实现电影理解

Jul, 2024

IDA-VLM: 基于ID感知的大型视觉语言模型，实现电影理解

IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model

Yatai Ji, Shilong Zhang, Jie Wu, Peize Sun, Weifeng Chen...

TL;DR通过视觉指令调整和身份识别的ID感知大视觉语言模型的开发，以及引入新的基准MM-ID，以研究LVLMs在实例身份的记忆和识别方面的局限性。

Abstract

The rapid advancement of large vision-language models (lvlms) has demonstrated a spectrum of emergent capabilities. Nevertheless, current models only focus on the visual content of a single scenario, while their

发现论文，激发创造

视觉-语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.

Mar, 2022

LVLM-eHub：面向大型视觉语言模型的全面评估基准

本文介绍了一个 LVLM-eHub综合评估平台，使用6种多模态能力定量评估47个标准文本相关视觉基准，并利用在线平台提供用户级评估。结果显示，采用多轮推理评估框架可以缓解对象幻觉问题，为开发有效的LVLM评估流水线提供了启示。

Jun, 2023

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了CoVLM框架，通过引入通信令牌实现视觉感知与LLMs之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉-语言任务中取得了最先进的表现。

Nov, 2023

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到60亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了MLLMs的视觉感知能力。

Jan, 2024

RelationVLM: 构建大型视觉-语言模型以理解视觉关系

RelationVLM是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了LVLM的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

LM4LV：一个用于低级图像任务的冻结大型语言模型

该研究论文提出了一种名为LM4LV的框架，它能够使冻结的大型语言模型(LLM)解决一系列的低层次视觉任务，展示了LLM在低层次视觉中的强大潜力，并且架起了MLLM和低层次视觉任务之间的桥梁。

May, 2024

大型视觉-语言模型的视频理解能力的扩展：减少令牌和减少视频

通过利用图像和视频之间的视觉相似性，本文介绍了一种成本效益较高的视频-LVLM模型，通过改进模型结构、引入创新的训练策略，并确定最有效的视频指令数据类型，实现了将基于图像的LVLM模型高效演化为视频-LVLM模型，并在有限资源环境下强调了时间理解的视频培训数据的重要性，提高了模型性能。

Jun, 2024

揭示无编码器的视觉-语言模型

在这项研究中，我们提出了一种简单而有效的训练方法，实现了没有视觉编码器的纯视觉语言模型，并通过桥接视觉语言表示和增强视觉识别能力的策略推出了EVE模型，它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的VLMs。

Jun, 2024