R-LLaVA：通过视觉关注区域提升医疗视觉问答理解

Oct, 2024

R-LLaVA：通过视觉关注区域提升医疗视觉问答理解

R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest

Xupeng Chen, Zhixin Lai, Kangrui Ruan, Shichu Chen, Jiaxiang Liu...

TL;DR该研究解决了现有医疗视觉问答（Med-VQA）方法未能充分利用图像中重要视觉区域信息的不足。本文提出了R-LLaVA，通过将简单的医学注释直接整合到图像中，增强了模型对生物医学问题的理解。实验证明，R-LLaVA在四个标准Med-VQA数据集上优于现有最先进技术，并引入了一种新的多项选择医学视觉理解数据集，进一步验证了关注视觉区域的重要性。

Abstract

Artificial intelligence has made significant strides in Medical Visual Question Answering (Med-VQA), yet prevalent studies often interpret images holistically, overlooking the visual regions of interest that may contain crucial information, potentially aligning with a doctor's prior kn

发现论文，激发创造

医学视觉问答的多元元模型量化

本论文提出了一种新的多元元模型量化方法，能够有效地学习元注释和利用有意义的特征以处理医学可视问题回答任务中的数据限制问题。实验表明，该方法不需要外部数据即可训练元模型，并且在两个公共医学VQA数据集上得到比其他现有方法更为准确的结果。

May, 2021

PMC-VQA：基于视觉指导的医学视觉问答模型优化

本研究旨在通过提出一种基于生成的模型方法（与大型自然语言模型结合）来解决医学图像中的问题，通过建立大规模的医疗视觉问答数据集，即PMC-VQA，该数据集包含149k张图片的227k个问答对，并进行预处理和微调以超越现有研究成果。

May, 2023

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

医学领域的视觉问答

通过使用领域特定的预训练策略，包括一种新颖的对比学习预训练方法，解决医学视觉问答任务中数据集规模小的问题，我们的模型在VQA-Med 2019测试集上达到了60%的准确率，与其他最先进的Med-VQA模型具有可比性。

Sep, 2023

BESTMVQA：医学视觉问答的基准评估系统

医学视觉问答（Med-VQA）是医疗行业中非常重要的任务之一，通过医学图像回答自然语言问题。本文开发了一种用于医学视觉问答的基准评估系统（BESTMVQA），通过此系统，用户可以自动构建Med-VQA数据集，并选择多种先进模型进行综合实证研究。该系统从临床数据中自动构建新数据集，通过在统一的实验环境中对先进模型进行评估，克服了现有工作的局限性。

Dec, 2023

OmniMedVQA：医学LVLM的新大规模综合评估基准

我们介绍了OmniMedVQA，一个来自75个不同医疗数据集的医疗视觉问答基准，其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

MedThink：通过多模态决策理由解释医学视觉问题回答

通过设计半自动注释过程，构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准MedVQA数据集R-RAD和R-SLAKE，并将其纳入训练过程中，通过三种不同的策略生成决策结果和相应的理由，从而清楚地展示推理过程中的医疗决策过程，实验证明该方法在R-RAD上能达到83.5%的准确率，在R-SLAKE上能达到86.3%的准确率，显著优于现有最先进的基线模型。

Apr, 2024

LaPA：医学视觉问答的潜在提示辅助模型

给出一个概述只需一句简短的中文描述是：本研究提出了LaPA模型，用于医学视觉问答。通过设计潜在提示生成模块、多模态融合块、和先验知识融合模块，利用潜在提示从单模态和多模态特征提取临床相关信息，并结合图像-语言跨模态信息预测最终答案。实验结果表明LaPA模型在三个公开的医学视觉问答数据集上胜过了现有的最先进模型ARL，分别在VQA-RAD、SLAKE和VQA-2019上达到了1.83%、0.63%和1.80%的改进。

Apr, 2024

面向医疗视觉问答的定向视觉提示

本研究解决了医疗视觉问答（Med-VQA）中模型视觉理解能力不足的问题，提出了定向视觉提示的新方法，以提升多模态大型语言模型（MLLMs）在区域性问题上的表现。研究发现，结合孤立区域与上下文区域的定制视觉提示能够显著增强模型的视觉理解能力，展示了该方法在多个数据集上的有效性。

Aug, 2024

超越炒作：对医疗场景中的视觉语言模型的冷静分析

本研究针对大型视觉语言模型（LVLMs）在医疗领域的评估不足问题，提出了RadVUQA，一个新的放射学视觉理解与问答基准，以全面评估现有的LVLMs。研究发现，无论是通用LVLMs还是医疗特定的LVLMs，在多模态理解和定量推理上均存在显著缺陷，显示出与临床实际之间的巨大差距，强调了开发更强大智能LVLMs的迫切需求。

Aug, 2024