医疗报告生成和视觉问答的视觉语言模型综述

Mar, 2024

医疗报告生成和视觉问答的视觉语言模型综述

Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review

Iryna Hartsock, Ghulam Rasool

TL;DR医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Abstract

medical vision-language models (VLMs) combine computer vision and natural language processing to analyze visual and textual medical data. Our paper reviews recent advancements in developing VLMs specialized for healthca

medical vision-language models healthcare medical report generation visual question answering multimodal medical data

发现论文，激发创造

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能，整体准确率为 87.5%，并在另一个 MedVQA 数据集 VQA-RAD 上展现了强大的性能，整体准确率为 73.2%。

Apr, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

使用预训练视觉语言模型的医学图像理解：一项全面研究

本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力，发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示，可实现知识跨越领域，改进泛化能力，对新对象的识别有所优化。此外，通过自动化生成医学提示的三种方法，可以将专家级的医学知识和图像特定信息注入提示语中，进行细粒度的信息定位，试验表明，与默认提示相比，巧妙设计的医学提示显著提高了零样本性能，且微调模型超过了受监督的模型。

Sep, 2022

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

我们介绍了 OmniMedVQA，一个来自 75 个不同医疗数据集的医疗视觉问答基准，其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

Dr-LLaVA：基于符号临床基础的视觉指导优化

我们提出了一种新的对齐算法，利用临床推理的符号化表示来将视觉语言模型 (VLMs) 与医学知识联系起来，从而生成与临床推理和诊断路径一致的多轮对话，并在多轮医学对话中展示出强大的性能。

May, 2024

基于视觉 - 语言模型在医学图像分割中的迁移学习探索

利用多模态视觉语言模型从图像描述和图像中捕捉语义信息，实现对多样化医学图像的分割，并评估其在医学领域的迁移性和基于生成提示的模型性能变化。

Aug, 2023