胃肠病学中的视觉-语言和大语言模型表现：GPT、Claude、Llama、Phi、Mistral、Gemma和量化模型

Aug, 2024

胃肠病学中的视觉-语言和大语言模型表现：GPT、Claude、Llama、Phi、Mistral、Gemma和量化模型

Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models

HTML

PDF

Seyed Amir Ahmad Safavi-Naini, Shuhaib Ali, Omer Shahab, Zahra Shahhoseini, Thomas Savage...

TL;DR本研究评估了大语言模型（LLMs）和视觉语言模型（VLMs）在胃肠病学中的医学推理表现，解决了现有模型在视觉数据整合方面的挑战。研究发现，尽管LLMs在医学推理中具有较高的零-shot性能，但VLM在处理图像相关问题时表现不佳，特别是在使用模型生成的图像描述时。该研究为模型配置的优化和模型类型的选择提供了重要的指导。

Abstract

Background and Aims: This study evaluates the Medical Reasoning performance of large Language Models (LLMs) and vision Language Models (VL

发现论文，激发创造

利用语言模型推进医学影像学：从N-grams到ChatGPT的旅程

该研究综述了语言模型在医学成像领域中的应用，重点介绍了不同应用，如图像字幕、报告生成、报告分类、查找提取、视觉问答、可解释性诊断等，并探讨了语言模型在医学影像分析中的潜在优点，包括提高临床工作流程效率、降低诊断错误、协助医疗保健专业人员提供及时准确的诊断。

Apr, 2023

超越炒作：评估GPT3.5的性能、可信度和临床适用性

本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现，并与经过微调的 BERT 模型和放射科医生进行比较。结果显示，GPT3.5 在性能方面略逊于 BERT 和放射科医生，但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外，我们还发现了一些系统性错误，需要加以解决以提高其在临床中的使用安全性和适用性。

Jun, 2023

在眼科中评估大型语言模型

本研究评估了三个不同的大型语言模型（GPT-3.5、GPT-4和PaLM2）在回答眼科专业问题方面的表现，并将其与三个不同的专业人员群体（医学本科生、医学硕士和主治医师）进行了比较。结果显示，GPT-4代表的LM在眼科领域表现更好，未来在医学教育和临床决策方面将带来意想不到的好处。

Nov, 2023

挑战性医疗案例中的视觉与语言模型准确度

基于本研究的结果，利用大规模通用语言模型结合图像能够有效应对复杂医学病例，但图像的添加可能降低模型的准确性。

Nov, 2023

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现GPT-4整体表现优于其他LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证LLMs在处理复杂医学数据方面的能力，并为将来在专门领域的LLM评估建立基准。

Jan, 2024

评估基于LLM生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态LLM评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以GPT-4-Vision-Preview为LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有84%的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于GPT-4-Vision-Preview，还可应用于评估其他LLMs的准确性和实用性，以进一步优化其应用。

Jan, 2024

MultiMedEval：用于评估医学视觉-语言模型的基准和工具包

MultiMedEval是一个开源工具包，旨在公平且可重复评估大型医疗视觉语言模型（VLM），通过23个数据集、11个医学领域的6个多模态任务来综合评估模型的性能，并通过广泛采纳的任务和性能指标确保模型的整体泛化能力，在github上提供了一个简单的界面和设置过程，可以仅仅通过几行代码来评估任何VLM，旨在简化VLM评估的复杂流程，推动未来模型的公平和统一基准测试。

Feb, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

HuatuoGPT-Vision，面向大规模注入医学视觉知识的多模态语言模型

通过使用 PubMedVision 数据集，我们对医学图像和文本进行了精炼和重构，从而改善了当前 MLLM 的医学多模态能力，并在医学多模态场景中展现了卓越的性能。

Jun, 2024

GMAI-MMBench：面向通用医疗人工智能的综合多模态评估基准

本研究针对现有医疗领域的多模态评估基准存在的局限，如有限的临床相关性和评估不完整性，提出了GMAI-MMBench。该基准基于多样化的医学数据，包括285个数据集和4种感知粒度，旨在全面评估大型视觉语言模型在医疗应用中的有效性。研究显示，当前先进模型如GPT-4o的准确率仅为52\%，表明未来还有重大改进空间，有助于推动医疗AI的发展。

Aug, 2024