超声波大型中文语言与视觉助手 LLaVA-Ultra

Oct, 2024

超声波大型中文语言与视觉助手 LLaVA-Ultra

LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound

Xuechen Guo, Wenhao Chai, Shi-Yan Li, Gaoang Wang

TL;DR本研究解决了现有视觉语言模型在医学视觉问答中特别是中文超声波领域的理解不足的问题。通过引入精细化的适应性视觉语言模型架构和数据冗余处理方法，我们显著提升了对医学视觉语义的识别能力。研究表明，LLaVA-Ultra在三种医学视觉问答数据集中超越了现有最先进模型，展现了良好的效果和适应性。

Abstract

Multimodal Large Language Model (MLLM) has recently garnered attention as a prominent research focus. By harnessing powerful LLM, it facilitates a transition of conversational generative AI from unimodal text to performing multimodal tasks. This boom begins to significantly impact medical field. However, general visual language model (VLM) lacks sophisticate

发现论文，激发创造

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练，用于医学视觉问答

本文提出了一种新的自我监督方法来处理医学图像视觉问答问题，通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示，预训练模型后将其转移到下游的医学VQA任务中，已在三个公开的医学VQA数据集上取得了最先进的表现，具有显着的准确度提高。

Jul, 2023

Qilin-Med-VL: 面向通用医疗的中文大规模视觉语言模型

该研究介绍了Qilin-Med-VL，首个中文大型视觉语言模型，旨在集成对图文数据的分析，通过预训练的Vision Transformer和基础语言模型的两阶段课程训练过程增强了生成医学字幕和回答复杂医学查询的能力，同时发布了由超过1M个图文对组成的ChiMed-VL数据集，可用于对医学数据进行详细和全面的解释。

Oct, 2023

OmniMedVQA：医学LVLM的新大规模综合评估基准

我们介绍了OmniMedVQA，一个来自75个不同医疗数据集的医疗视觉问答基准，其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

医疗报告生成和视觉问答的视觉语言模型综述

医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Mar, 2024

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能，整体准确率为87.5%，并在另一个MedVQA数据集VQA-RAD上展现了强大的性能，整体准确率为73.2%。

Apr, 2024

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了LLama3-Med模型，在生物医学视觉问答基准测试中实现了最先进的零-shot性能，相比于以前的方法，平均性能提高超过10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

外科场景理解的手术-LLaVA：利用大型语言和视觉模型

本研究解决了当前较少关注手术场景的语言视觉模型的局限性，提出了一种专门设计的外科场景大语言视觉模型Surgical-LLaVA。该模型通过结合手术图像和视频的视觉表示与语言特征空间，展示了在手术背景下令人印象深刻的多模态聊天能力，且在复杂手术场景中表现出优越的性能。

Oct, 2024

R-LLaVA：通过视觉关注区域提升医疗视觉问答理解

该研究解决了现有医疗视觉问答（Med-VQA）方法未能充分利用图像中重要视觉区域信息的不足。本文提出了R-LLaVA，通过将简单的医学注释直接整合到图像中，增强了模型对生物医学问题的理解。实验证明，R-LLaVA在四个标准Med-VQA数据集上优于现有最先进技术，并引入了一种新的多项选择医学视觉理解数据集，进一步验证了关注视觉区域的重要性。

Oct, 2024