Jun, 2024

目标引导是否真能减少大型视觉语言模型的幻觉?

TL;DR在 LVLM 的开放式字幕生成中,细粒度对象定位目标对对象形象幻觉的效果很小或没有效果。