Apr, 2024
融合领域适应视觉和语言模型的医学视觉问答
Fusion of Domain-Adapted Vision and Language Models for Medical Visual
Question Answering
TL;DR通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能,整体准确率为87.5%,并在另一个MedVQA数据集VQA-RAD上展现了强大的性能,整体准确率为73.2%。