OmniMedVQA：医学 LVLM 的新大规模综合评估基准

Feb, 2024

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

Yutao Hu, Tianbin Li, Quanfeng Lu, Wenqi Shao, Junjun He...

TL;DR我们介绍了 OmniMedVQA，一个来自 75 个不同医疗数据集的医疗视觉问答基准，其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Abstract

large vision-language models (LVLMs) have demonstrated remarkable capabilities in various multimodal tasks. However, their potential in the medical domain remains largely unexplored. A significant challenge arise

large vision-language models medical domain omnimedvqa benchmark medical visual question answering

发现论文，激发创造

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能，整体准确率为 87.5%，并在另一个 MedVQA 数据集 VQA-RAD 上展现了强大的性能，整体准确率为 73.2%。

Apr, 2024

KNVQA：用于评估基于知识的视觉问答的基准

该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Nov, 2023

医疗报告生成和视觉问答的视觉语言模型综述

医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Mar, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

手术 - LVLM：学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答

介绍了 Surgical-LVLM，这是一种专为复杂手术场景定制的个性化大型视觉 - 语言模型，通过引入 VP-LoRA 模块和 TIT 模块，能够在手术背景下理解复杂的视觉 - 语言任务，并在多个基准测试中展现了出色的性能，为自动化手术辅导领域做出了贡献。

Mar, 2024

BESTMVQA：医学视觉问答的基准评估系统

医学视觉问答（Med-VQA）是医疗行业中非常重要的任务之一，通过医学图像回答自然语言问题。本文开发了一种用于医学视觉问答的基准评估系统（BESTMVQA），通过此系统，用户可以自动构建 Med-VQA 数据集，并选择多种先进模型进行综合实证研究。该系统从临床数据中自动构建新数据集，通过在统一的实验环境中对先进模型进行评估，克服了现有工作的局限性。

Dec, 2023

MultiMedEval：用于评估医学视觉 - 语言模型的基准和工具包

MultiMedEval 是一个开源工具包，旨在公平且可重复评估大型医疗视觉语言模型（VLM），通过 23 个数据集、11 个医学领域的 6 个多模态任务来综合评估模型的性能，并通过广泛采纳的任务和性能指标确保模型的整体泛化能力，在 github 上提供了一个简单的界面和设置过程，可以仅仅通过几行代码来评估任何 VLM，旨在简化 VLM 评估的复杂流程，推动未来模型的公平和统一基准测试。

Feb, 2024

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架（MISS），将医学 VQA 作为生成任务，并通过多任务学习对齐图像 - 文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于 VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。

Jan, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

放射学中的医学图像自由形式问答

医学领域中的视觉问答（VQA）面临独特的、跨学科的挑战，结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白，探讨了放射学图像的有效表示和多模态表示的联合学习，超越了现有方法。我们创新性地增强了 SLAKE 数据集，使我们的模型能够回答更多样化的问题，不仅限于放射学或病理学图像的直接内容。我们的模型以较简单的架构实现了 79.55% 的 top-1 准确度，表现与当前最先进的模型相当。这项研究不仅推进了医学 VQA，还在诊断环境中开辟了实用应用的途径。

Jan, 2024