Mar, 2024

利用语义重建缓解视觉语言模型中的幻像

TL;DR通过准确定位和惩罚产生错觉的标记,ESREAL 提出了一种新颖的无监督学习框架,以抑制视觉 - 语言模型在生成长字幕时的幻觉,通过分析图像本身的信号实现减少错觉的目标。