KU-DMIS-MSRA 在 RadSum23 的应用：用于放射学报告摘要的预训练视觉语言模型

ACLJul, 2023

KU-DMIS-MSRA 在 RadSum23 的应用：用于放射学报告摘要的预训练视觉语言模型

KU-DMIS-MSRA at RadSum23: Pre-trained Vision-Language Model for Radiology Report Summarization

Gangwoo Kim, Hajung Kim, Lei Ji, Seongsu Bae, Chanhwi Kim...

TL;DR本文介绍 CheXOFA，这是一个新的预训练视觉语言模型，用于胸部 X 光域。该模型最初在普通领域的各种多模态数据集上进行预训练，然后迁移到胸部 X 光域。通过将各种特定于域的任务统一到简单的序列到序列模式中，使模型能够有效地从领域中有限的资源中学习所需的知识和技能。通过包括集成和事实校准在内的微妙技术，我们的系统在 RadSum23 排行榜的隐藏测试集上取得了第一名。

Abstract

In this paper, we introduce chexofa, a new pre-trained vision-language model (VLM) for the →

chexofa pre-trained vision-language model chest x-ray domain sequence-to-sequence

发现论文，激发创造

XrayGPT: 医学视觉语言模型用于胸部 X 光摘要

本研究介绍了 XrayGPT，一种新型的会话式医疗视觉 - 语言模型，可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐，并使用简单的线性变换，我们的模型能够具备出色的视觉会话能力，从而深入理解放射学和医学领域的知识。

Jun, 2023

CheXagent: 朝向胸部 X 射线解读的基础模型

通过引入 CheXinstruct 数据集、设计临床大规模语言模型、图像编码器和网络以及引入 CheXbench 基准来解决医疗影像领域中胸部 X 射线图像自动解释的挑战，并证明 CheXagent 在这些任务中优于先前开发的通用和医学领域基础模型。

Jan, 2024

MAIRA-1: 用于放射学报告生成的专业大型多模态模型

我们提出了一种放射学特定的多模态模型，用于从胸部 X 线片 (CXR) 生成放射学报告。我们的工作基于这样一个观点，即大型语言模型可以通过与预训练的视觉编码器对齐来具备多模态能力。在自然图像上，这已被证明可以使多模态模型具有图像理解和描述能力。我们提出的模型 (MAIRA-1) 结合了一个特定于 CXR 的图像编码器和一个基于 Vicuna-7B 的精调大型语言模型，以及基于文本的数据增强方法，以产生具有最先进质量的报告。具体而言，MAIRA-1 在与放射科医生对齐的 RadCliQ 指标和所有考虑的词汇指标上均有显著提高。对模型输出进行手动审核显示出生成报告的流畅性和准确性，同时揭示了现有评估方法未捕捉到的故障模式。更多信息和资源可在项目网站中找到：this https URL。

Nov, 2023

CXR-LLaVA：用于解读胸部 X 光图像的多模式大型语言模型

利用大型语言模型 (LLM) 开发了多模态大型语言模型来解释胸部 X 射线图像，并研究了提示工程和模型参数对其效果的影响。通过对数据集进行预训练和微调，该模型在胸部 X 射线图像解释中显示了很好的潜力。

Oct, 2023

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

ChEX：胸部 X 光片的交互式定位和区域描述

通过结合文本提示和边界框，我们提出了一种新颖的多任务架构和训练方法，用于解决医学图像的报告生成和解释性问题。我们称之为胸部 X 射线解释器（ChEX）。通过在 9 个不同的胸部 X 射线任务中进行评估，包括定位图像解释和报告生成，我们展示了 ChEX 与 SOTA 模型的竞争力，并进一步分析证明了 ChEX 的交互能力。

Apr, 2024

MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合

MedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型，包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性，并在 MIMIC 数据集上的性能超越了基准模型。此外，该研究还介绍了一种创新的文本到 CXR 合成方法，利用了 Stable Diffusion（SD）架构内的指令跟随能力，无需额外参数，使模型能够生成高保真度的精细化医学图像。详尽的实验证实了 MedXChat 在所有任务上的协同增强效果。研究中的指令数据和模型将开源。

Dec, 2023

WoLF：大规模语言模型框架用于 CXR 理解

通过 WoLF 框架，我们解决了现有 CXR 理解框架的若干问题，通过捕捉多方位的病人记录进行准确诊断，通过解耦 CXR 报告中基于解剖结构的知识进行报告生成的性能增强，并通过 AI 评估协议在 VQA 和报告生成方面展示了卓越的性能。

Mar, 2024

预训练视觉语言模型用于纵向胸部 X 射线的差异视觉问题回答

PLURAL 模型是一种针对差异化视觉问答任务的预训练视觉 - 语言模型，经过实验证明在研究中能够提高模型的性能。

Feb, 2024

基于知识增强的医学 CXR 可视化语言预训练模型

我们提出了一种基于 Transformer 的基于地面知识增强模块的医学视觉 - 语言预训练（GK-MVLP）框架，通过细粒度对应医学知识的解剖区域级视觉特征和文本特征，将医学知识地面化到适当的解剖区域，优化胸部 X 光图像和放射学报告的对齐，并在下游任务上展现出与或超过现有技术的竞争力，包括胸部 X 光疾病分类、疾病定位、报告生成和医学视觉问答。结果显示了引入地面化机制消除偏见并改善胸部 X 光图像和放射学报告的对齐的优势。

Apr, 2024