外科场景理解的手术-LLaVA:利用大型语言和视觉模型
我们设计了一个基于医学图像的手术问答系统,使用视觉和文本转换模型,并通过两个Surgical-VQA数据集验证了所提出的方法,结合分类和基于句子的答案以回答关于手术程序的问卷调查。
Jun, 2022
本文介绍了一种可伸缩的 Language-Vision GPT(LV-GPT)模型,它将 GPT2 模型扩展到包括视觉输入(图像),以改进机器人手术中的视觉问题回答(VQA)任务,该模型在内窥镜视觉挑战机器人场景分割2018、CholecTriplet2021和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。
Apr, 2023
本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统,使用门控视觉语言嵌入(GVLE)和语言视觉变压器(LViT)来进行异构模态的融合和回答的预测,GVLE在实现语言-视觉嵌入方面表现出优异的性能,并与现有基准相比速度更快,并通过添加检测头来实现本地化的回答预测。
May, 2023
本研究提出了一种基于端到端Transformer与协同注意力门控视觉-语言嵌入的外科手术场景中可定位答案的视觉问答系统,该方法不需要通过检测模型进行特征提取,并建立在数据高效图像Transformer模块、并行分类器和检测器之上,该方法在公共手术视频实验上的结果表明了与现有技术的优越性。
Jul, 2023
介绍了Surgical-LVLM,这是一种专为复杂手术场景定制的个性化大型视觉-语言模型,通过引入VP-LoRA模块和TIT模块,能够在手术背景下理解复杂的视觉-语言任务,并在多个基准测试中展现了出色的性能,为自动化手术辅导领域做出了贡献。
Mar, 2024
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了LLama3-Med模型,在生物医学视觉问答基准测试中实现了最先进的零-shot性能,相比于以前的方法,平均性能提高超过10%,这些进展为医疗专业人员提供了更准确可靠的工具,弥补了当前多模态对话助手中的差距,并促进了医疗人工智能的进一步创新。
Jun, 2024
本研究针对外科视觉问答(VQA)模型无法准确指示与特定问题相关的视觉区域的问题,提出了外科视觉问题定位回答(VQLA)方法,以实现对外科图像的精确和上下文相关的响应。通过引入校准共注意力门控视觉-语言(C²G-ViL)嵌入以及对抗样本对比学习策略,显著提升了模型的鲁棒性和性能,为外科教育、病人护理和外科结果的改善提供了有效工具。
Aug, 2024
本研究针对现有外科视频缺乏理解与对话能力的问题,提出了一个新颖的解决方案。通过构建包含102,000个外科视频-指令对的新数据集Surg-QA,并采用两阶段问答生成管道,显著提高了外科视频的多模态对话能力。研究成果表明,LLaVA-Surg在开放式外科视频问答任务中,性能明显超越之前的模型,显示出卓越的多模态对话能力。
Aug, 2024
本研究针对大型视觉语言模型(LVLMs)在医疗领域的评估不足问题,提出了RadVUQA,一个新的放射学视觉理解与问答基准,以全面评估现有的LVLMs。研究发现,无论是通用LVLMs还是医疗特定的LVLMs,在多模态理解和定量推理上均存在显著缺陷,显示出与临床实际之间的巨大差距,强调了开发更强大智能LVLMs的迫切需求。
Aug, 2024
本研究解决了现有视觉语言模型在医学视觉问答中特别是中文超声波领域的理解不足的问题。通过引入精细化的适应性视觉语言模型架构和数据冗余处理方法,我们显著提升了对医学视觉语义的识别能力。研究表明,LLaVA-Ultra在三种医学视觉问答数据集中超越了现有最先进模型,展现了良好的效果和适应性。
Oct, 2024