CVPRApr, 2024

LaPA:医学视觉问答的潜在提示辅助模型

TL;DR给出一个概述只需一句简短的中文描述是:本研究提出了 LaPA 模型,用于医学视觉问答。通过设计潜在提示生成模块、多模态融合块、和先验知识融合模块,利用潜在提示从单模态和多模态特征提取临床相关信息,并结合图像 - 语言跨模态信息预测最终答案。实验结果表明 LaPA 模型在三个公开的医学视觉问答数据集上胜过了现有的最先进模型 ARL,分别在 VQA-RAD、SLAKE 和 VQA-2019 上达到了 1.83%、0.63% 和 1.80% 的改进。