Mar, 2024

多模态图像幻觉控制:视觉信息的连接

TL;DR通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强,能够减少幻觉并提高模型的依赖性,从而减少视觉无依据的回答。