大型多模态模型在医学视觉问答中的令人尴尬的简单探测评估：比随机还差？

May, 2024

大型多模态模型在医学视觉问答中的令人尴尬的简单探测评估：比随机还差？

Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA

Qianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang

TL;DR通过探测性评估和程序诊断，严格评估了 LMM 在医学影像学中的性能，揭示了目前顶尖模型在医学诊断问题上的表现不如随机猜测，并强调了对 LMM 在医学诊断等关键领域的可靠性进行更为健壮的评估的紧迫需求。

Abstract

large multimodal models (LMMs) have shown remarkable progress in the field of medical visual question answering (Med-VQA), achieving high accuracy on existing benchmarks. However, their reliability under robust e

large multimodal models medical visual question answering probing evaluation medical diagnosis lmm performance

发现论文，激发创造

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

MMEvalPro：多模态基准测试的可靠和高效评估

通过提出 MMEvalPro 基准测试，我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进，其结果表明该基准测试更具挑战性且更可信，为进一步推动未来研究提供了重要潜力。

Jun, 2024

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

我们介绍了 OmniMedVQA，一个来自 75 个不同医疗数据集的医疗视觉问答基准，其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力，如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试，用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程，并提出了高效的结构恢复注释 (ESRA) 方法，可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本，在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验，发现现有的 LLMs 性能仍受限制，但与 LMMs 相比，LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。

Feb, 2024

MultifacetEval: 探索 LLM 在掌握医学知识中的多方面评估

目前的大型语言模型在实际应用于医学领域中的任务时，存在显著的实际效果与报道性能之间的差距，这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性，因此尚不适用于真实医学任务。

Jun, 2024

提升生物医学 NLI 模型的健壮性：临床试验的探测方法

大型语言模型在医学领域中的应用是分析和调查临床试验的任务，本研究使用记忆探测方法研究在临床试验上训练的 Sci-five 模型，通过训练任务特定的探测器，调整模型以提高准确性，并发现探测器的大小对调整流程产生影响。

Feb, 2024

重构 - 探索法：一种对预训练语言模型进行生物医学知识探测的对比性方法

本研究采用对比探针法，探究生物医学领域基于 UMLS 词汇库的预训练语言模型的知识转移机制，并提出了 MedLAMA 作为基准来测试多种最先进的语言模型和探测方法，其中 Contrastive-Probe 方法的性能表现优于其他方法，为此领域更合适的探针技术的发展提供了启示。

Oct, 2021

MedExQA：具备多重解释的医学问答基准

本研究介绍了 MedExQA，这是一个用于评估大型语言模型对医学知识的理解能力的新型基准，通过构建涵盖五个不同医学专业的数据集，并且为每个问题 - 答案对提供多个解释，填补了当前医学问答基准的一个重要空白，即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性，提出了一个评估模型超越分类准确性的有效方法，并在特定领域 —— 言语病理学中，揭示了当前 GPT4 等语言模型理解能力不足的问题。我们的结果表明，使用多个解释进行生成评估更符合人类评估结果，提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型（目前主要基于 Llama2），我们还提出了一种新的医学模型 MedPhi-2，基于 Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于 Llama2-70B 的医学语言模型，展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。

Jun, 2024

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

训练小型多模态模型以弥合生物医学能力差距：放射学成像的案例研究

利用模块化方法针对医学领域使用开源小型多模态模型来解决大规模基础模型在临床需求中存在的问题，并在放射学成像中展示了 LLaVA-Rad 模型的最新结果和其在报告生成和跨模态检索中的性能优势，成为真实世界临床应用的前景工具。

Mar, 2024