关于医学图像分析的大型视觉语言模型的实证研究
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域的技术集成到视觉语言模型中,以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索,最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析,以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战,并提出了未来的发展方向,包括增强临床有效性和解决患者隐私问题。总的来说,我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。
Mar, 2024
本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
Sep, 2022
扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
May, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
该研究论文以大型多模型为主题,探索了通过特定数据集设计的提示词,使用 LMMs 来执行图像分类任务的功效,并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析,实验结果表明模型在 MNIST,Cats Vs. Dogs,Hymnoptera(Ants Vs. Bees)以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能,无需进行任何微调即可达到 85%,100%,77%和 79%的分类准确率。此外,细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进,强调了 LLVAs 的变革潜力和在现实场景中的多样应用。
Dec, 2023
在这项研究中,我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务,发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征,而 SAM 则在一般情况下具备分离伪影的能力,但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。
May, 2024
该研究展示大型语言模型能够通过只有少量的微调,在医疗和健康领域中处理不易表达为文本的各种生理和行为时间序列数据,并对心脏信号分析、身体活动识别、代谢计算和压力报告估计等健康任务进行有意义的推理。
May, 2023
通过在医学图像分析中引入疾病相关的上下文提示,利用预训练的视觉 - 语言模型(VLMs)的联合能力,提出了一种新的疾病原型学习框架,有效地提升了 VLMs 对新疾病概念的理解和性能,相较于现有方法有明显的提升。
May, 2024
本研究探讨了使用视觉语言模型进行仇恨表情包检测和修正任务的能力,并通过实证实验证明了预训练的 LLaVA 模型在这些任务中的有效性和讨论了其优缺点。
Nov, 2023