LLaVA-Med: 训练一款大规模语言和视觉助手,用于生物医学领域,仅需一天
Med-Flamingo是一种适应于医学领域的多模态少样本学习器,能够通过从出版物和教材中的医学图像-文本数据进行预训练,提高生成式医学视觉问答(VQA)的性能,并在医师评估和干预性应用中首次实现了多模态医学少样本适应。
Jul, 2023
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了LLama3-Med模型,在生物医学视觉问答基准测试中实现了最先进的零-shot性能,相比于以前的方法,平均性能提高超过10%,这些进展为医疗专业人员提供了更准确可靠的工具,弥补了当前多模态对话助手中的差距,并促进了医疗人工智能的进一步创新。
Jun, 2024
通过创建Med-GRIT-270k数据集和使用多任务学习,我们提出了用于生物医学的指示型多模态大型语言模型(BiRD),并通过大量实验证明了该数据集和BiRD模型在交互能力和智能生物医学助理的探索和开发上具有显著的参考价值。
Jun, 2024
通过引入自我训练的大型语言和视觉助手 (STLLaVA-Med),使用LVLM和直接优化原则 (DPO) 自动产生医学视觉指导数据,以提高数据效率,并且证实了在使用只有9%的医学数据的情况下,STLLaVA-Med 在三个主要的医学视觉问答(VQA)基准测试中具有竞争力的零测性能。
Jun, 2024
本研究针对现有外科视频缺乏理解与对话能力的问题,提出了一个新颖的解决方案。通过构建包含102,000个外科视频-指令对的新数据集Surg-QA,并采用两阶段问答生成管道,显著提高了外科视频的多模态对话能力。研究成果表明,LLaVA-Surg在开放式外科视频问答任务中,性能明显超越之前的模型,显示出卓越的多模态对话能力。
Aug, 2024
本研究针对现有生物医学领域大型语言模型(LLMs)文献缺乏综合分析的现状,进行了深入探讨。文章分析了484篇相关文献,探讨了LLMs在诊断辅助、药物发现和个性化医疗等任务中的能力,并指出在特定应用中提高模型表现的调适策略。此外,研究还揭示了数据隐私、模型可解释性等挑战,并提出未来的研究方向。
Aug, 2024
本研究解决了现有医疗多模态大型语言模型在视觉和语言之间对齐不足的问题。提出的LoGra-Med算法通过强制实施图像模态、对话描述和扩展标题之间的三元组关联,显著提高了模型捕捉上下文语义和跨模态关联的能力。实验结果表明,LoGra-Med在医疗视觉问答任务上表现优异,甚至在仅使用10%数据的情况下超越了现有模型的性能。
Oct, 2024
本研究针对现有医疗多模态大语言模型在视觉与语言模态间对齐不足的问题,通过提出一种新的多图对齐算法LoGra-Med,强化图像模态、基于对话的描述和扩展标题之间的三元关系。这一创新方法帮助模型更好地捕捉上下文意义和处理语言变异性,实验证明在小数据集下也能超越当前技术水平。
Oct, 2024
本研究解决了现有视觉语言模型在医学视觉问答中特别是中文超声波领域的理解不足的问题。通过引入精细化的适应性视觉语言模型架构和数据冗余处理方法,我们显著提升了对医学视觉语义的识别能力。研究表明,LLaVA-Ultra在三种医学视觉问答数据集中超越了现有最先进模型,展现了良好的效果和适应性。
Oct, 2024
该研究解决了现有医疗视觉问答(Med-VQA)方法未能充分利用图像中重要视觉区域信息的不足。本文提出了R-LLaVA,通过将简单的医学注释直接整合到图像中,增强了模型对生物医学问题的理解。实验证明,R-LLaVA在四个标准Med-VQA数据集上优于现有最先进技术,并引入了一种新的多项选择医学视觉理解数据集,进一步验证了关注视觉区域的重要性。
Oct, 2024