Oct, 2024
R-LLaVA:通过视觉关注区域提升医疗视觉问答理解
R-LLaVA: Improving Med-VQA Understanding through Visual Region of
Interest
TL;DR该研究解决了现有医疗视觉问答(Med-VQA)方法未能充分利用图像中重要视觉区域信息的不足。本文提出了R-LLaVA,通过将简单的医学注释直接整合到图像中,增强了模型对生物医学问题的理解。实验证明,R-LLaVA在四个标准Med-VQA数据集上优于现有最先进技术,并引入了一种新的多项选择医学视觉理解数据集,进一步验证了关注视觉区域的重要性。