Dec, 2023

在视觉 - 语言基础模型中改进医疗报告生成的适配器调优与知识增强

TL;DR医疗报告生成需要自动创建连贯准确的医学图像描述。本研究基于最先进的视觉语言预训练和微调方法 BLIP-2,利用适配器调优和医学知识增强损失,显著提高了模型的准确性和连贯性。在 ImageCLEFmedical 2023 的数据集上验证,我们的模型取得了最佳的平均结果,优于几种最先进的方法。ROUGE 和 CIDEr 的显著改进突显了我们方法的有效性,为快速适应视觉语言基础模型以应对数据匮乏的挑战带来了有希望的结果。