Jul, 2024

IDA-VLM: 基于ID感知的大型视觉语言模型,实现电影理解

TL;DR通过视觉指令调整和身份识别的ID感知大视觉语言模型的开发,以及引入新的基准MM-ID,以研究LVLMs在实例身份的记忆和识别方面的局限性。