Nov, 2023

EVCap:用于开放世界理解的外部视觉名称存储的检索增强图像字幕

TL;DR该研究介绍了一种基于大型语言模型的图像字幕生成方法,利用外部可视 - 名称记忆检索并提供对象名称,从而更新对象知识记忆,实现对未知对象的理解,并在各种基准测试中展现出优越性能。