Nov, 2023
EVCap:用于开放世界理解的外部视觉名称存储的检索增强图像字幕
EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension
Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama
TL;DR该研究介绍了一种基于大型语言模型的图像字幕生成方法,利用外部可视 - 名称记忆检索并提供对象名称,从而更新对象知识记忆,实现对未知对象的理解,并在各种基准测试中展现出优越性能。