Apr, 2024

LVLM-Intrepret:大规模视觉语言模型的解释性工具

TL;DR人们对于多模态大型语言模型及其内部机制的理解仍然是复杂的任务,因此该研究提出了一个新颖的交互应用来提高图像补丁的可解释性,并评估语言模型将输出与图像联系起来的效果,通过系统性地研究模型来发现系统的局限性,为提升系统功能铺平道路,案例研究证明该应用在理解流行的大型多模态模型(LLaVA)故障机制方面的作用。