May, 2023

使用视觉裁剪增强 BLIP 系模型对细节问题的回答

TL;DR文章探讨将视觉切割技术用于改进最新的 BLIP 模型在细节问题上的表现,提出了三种测试方式,并进行了实验验证,结果表明,相较于人工切割,基于多模式嵌入的自动切割方法效果相似,同时发现对于零 - shot 模型和小边界框,效果更为显著,在 VQA-random 任务中获得了 4.59% 的改善。