Nov, 2023

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

TL;DR该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。