Dr-LLaVA:基于符号临床基础的视觉指导优化
本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med),该助手能回答有关生物医学图像的开放性研究问题,并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。
Jun, 2023
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域的技术集成到视觉语言模型中,以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索,最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析,以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战,并提出了未来的发展方向,包括增强临床有效性和解决患者隐私问题。总的来说,我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。
Mar, 2024
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了LLama3-Med模型,在生物医学视觉问答基准测试中实现了最先进的零-shot性能,相比于以前的方法,平均性能提高超过10%,这些进展为医疗专业人员提供了更准确可靠的工具,弥补了当前多模态对话助手中的差距,并促进了医疗人工智能的进一步创新。
Jun, 2024
本文提出了一种数据中心的框架BioMed-VITAL,将临床医生的偏好纳入到生成和选择生物医学多模式基础模型调整的指导数据的过程中,并通过这种方法获得的指导数据进行调整后的模型在开放式视觉对话和医疗问答中表现出显著改进。
Jun, 2024
本研究解决了现有医疗多模态大型语言模型在视觉和语言之间对齐不足的问题。提出的LoGra-Med算法通过强制实施图像模态、对话描述和扩展标题之间的三元组关联,显著提高了模型捕捉上下文语义和跨模态关联的能力。实验结果表明,LoGra-Med在医疗视觉问答任务上表现优异,甚至在仅使用10%数据的情况下超越了现有模型的性能。
Oct, 2024
本研究针对现有医疗多模态大语言模型在视觉与语言模态间对齐不足的问题,通过提出一种新的多图对齐算法LoGra-Med,强化图像模态、基于对话的描述和扩展标题之间的三元关系。这一创新方法帮助模型更好地捕捉上下文意义和处理语言变异性,实验证明在小数据集下也能超越当前技术水平。
Oct, 2024
本研究解决了医学多模态大语言模型在真实应用中知识不足的问题。我们提出的SemiHVision数据集结合人类标注和自动增强技术,提高了医学知识表示和诊断推理能力。研究表明,PMC-Cambrian-AN在新提出的JAMA临床挑战基准上表现优异,展示了其在诊断推理方面的优势。
Oct, 2024
本研究针对医学领域缺乏多模态大语言模型的视觉定位应用问题,提出了一种名为PFMVG的高效参数微调方法,以提升医学视觉定位的表现。该模型在公开基准数据集上的评估显示,其性能优于现有的GPT-4v,具有显著的潜在影响。
Oct, 2024
本研究针对现有医学领域中大语言模型(LLMs)和视觉语言模型(VLMs)的适应性问题进行了深入探讨,指出这些模型在医学问答任务中的表现并未如预期般优于基础模型。该论文通过对七个公共"医学"LLM和两个VLM的比较分析,发现医疗模型在零样本和少样本提示条件下的性能普遍低于基础模型,进而提出未来研究中需要加强的有效方法。
Nov, 2024
本研究针对现有医学基础模型在医疗任务中的有效性问题进行了分析,提出这些模型在零样本和少样本情况下并未显著优于通用基础模型。研究表明,尽管经过特定任务的微调后医学LLM性能有所提升,但这些改进无法应用于临床笔记任务,强调了通用模型可能已经展现出强大的医学知识和推理能力。
Nov, 2024