Aug, 2024

面向医疗视觉问答的定向视觉提示

TL;DR本研究解决了医疗视觉问答(Med-VQA)中模型视觉理解能力不足的问题,提出了定向视觉提示的新方法,以提升多模态大型语言模型(MLLMs)在区域性问题上的表现。研究发现,结合孤立区域与上下文区域的定制视觉提示能够显著增强模型的视觉理解能力,展示了该方法在多个数据集上的有效性。