WoLF：大规模语言模型框架用于 CXR 理解

Mar, 2024

WoLF：大规模语言模型框架用于 CXR 理解

WoLF: Large Language Model Framework for CXR Understanding

Seil Kang, Donghyun Kim, Junhyeok Kim, Hyo Kyung Lee, Seong Jae Hwang

TL;DR通过 WoLF 框架，我们解决了现有 CXR 理解框架的若干问题，通过捕捉多方位的病人记录进行准确诊断，通过解耦 CXR 报告中基于解剖结构的知识进行报告生成的性能增强，并通过 AI 评估协议在 VQA 和报告生成方面展示了卓越的性能。

Abstract

Significant methodological strides have been made toward Chest X-ray (CXR) understanding via modern vision-language models (VLMs), demonstrating impressive visual question answering (VQA) and →

chest x-ray understanding vision-language models visual question answering cxr report generation wolf framework

发现论文，激发创造

CXR-LLaVA：用于解读胸部 X 光图像的多模式大型语言模型

利用大型语言模型 (LLM) 开发了多模态大型语言模型来解释胸部 X 射线图像，并研究了提示工程和模型参数对其效果的影响。通过对数据集进行预训练和微调，该模型在胸部 X 射线图像解释中显示了很好的潜力。

Oct, 2023

LLM 可以自行阅读和生成 CXR 图像

本研究利用 VQ-GAN 框架将图像的潜在表示作为一种文本令牌，通过对预训练 LLM 进行微调，实现了无需结构改变或额外训练目标的图像生成，并将其应用于胸部 X-ray 图像和报告生成任务中。

May, 2023

预训练视觉语言模型用于纵向胸部 X 射线的差异视觉问题回答

PLURAL 模型是一种针对差异化视觉问答任务的预训练视觉 - 语言模型，经过实验证明在研究中能够提高模型的性能。

Feb, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

MAIRA-1: 用于放射学报告生成的专业大型多模态模型

我们提出了一种放射学特定的多模态模型，用于从胸部 X 线片 (CXR) 生成放射学报告。我们的工作基于这样一个观点，即大型语言模型可以通过与预训练的视觉编码器对齐来具备多模态能力。在自然图像上，这已被证明可以使多模态模型具有图像理解和描述能力。我们提出的模型 (MAIRA-1) 结合了一个特定于 CXR 的图像编码器和一个基于 Vicuna-7B 的精调大型语言模型，以及基于文本的数据增强方法，以产生具有最先进质量的报告。具体而言，MAIRA-1 在与放射科医生对齐的 RadCliQ 指标和所有考虑的词汇指标上均有显著提高。对模型输出进行手动审核显示出生成报告的流畅性和准确性，同时揭示了现有评估方法未捕捉到的故障模式。更多信息和资源可在项目网站中找到：this https URL。

Nov, 2023

MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合

MedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型，包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性，并在 MIMIC 数据集上的性能超越了基准模型。此外，该研究还介绍了一种创新的文本到 CXR 合成方法，利用了 Stable Diffusion（SD）架构内的指令跟随能力，无需额外参数，使模型能够生成高保真度的精细化医学图像。详尽的实验证实了 MedXChat 在所有任务上的协同增强效果。研究中的指令数据和模型将开源。

Dec, 2023

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

我们介绍了 OmniMedVQA，一个来自 75 个不同医疗数据集的医疗视觉问答基准，其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

利用视觉和语言模型与眼动模式增强胸部 X 射线分析中的人机交互

通过整合医生的眼动数据以及文本提示，利用视觉 - 语言模型（VLMs）来增强胸部 X 射线分析中的人机交互，从而提高计算机辅助诊断在医学图像任务中的准确性。

Apr, 2024

探索多模态大型语言模型用于放射学报告错误检查

该研究通过多模态大型语言模型（LLMs）作为辅助工具，检视放射科医生报告中的错误，取得良好的效果，对放射学诊断准确性的提升具有潜力。

Dec, 2023