在视觉 - 语言基础模型中改进医疗报告生成的适配器调优与知识增强

Dec, 2023

在视觉 - 语言基础模型中改进医疗报告生成的适配器调优与知识增强

Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Models

Shibin Wu, Bang Yang, Zhiyu Ye, Haoqian Wang, Hairong Zheng...

TL;DR医疗报告生成需要自动创建连贯准确的医学图像描述。本研究基于最先进的视觉语言预训练和微调方法 BLIP-2，利用适配器调优和医学知识增强损失，显著提高了模型的准确性和连贯性。在 ImageCLEFmedical 2023 的数据集上验证，我们的模型取得了最佳的平均结果，优于几种最先进的方法。ROUGE 和 CIDEr 的显著改进突显了我们方法的有效性，为快速适应视觉语言基础模型以应对数据匮乏的挑战带来了有希望的结果。

Abstract

medical report generation demands automatic creation of coherent and precise descriptions for medical images. However, the scarcity of labelled medical image-report pairs poses formidable challenges in developing large-scale neural networks capable of harnessing the potential of artifi

medical report generation coherent descriptions labelled medical image-report pairs neural networks large-scale foundation models

发现论文，激发创造

针对医学报告生成的通用基础模型的定制

该研究提出了将通用的预训练神经网络模型应用于医学报告生成的方法，并表明对图像的特定编码和一定的参数训练是实现最优结果的关键。

Jun, 2023

有效微调以提升大型多模态放射学报告生成模型

利用生成性人工智能进行医学图像的放射学报告撰写可极大地减少了时间成本和错误率。本研究中，我们提出了一个简单而有效的两阶段微调方案，通过软性视觉提示将视觉特征与大型语言模型的文本嵌入空间对齐。我们的框架在没有领域特定预训练的情况下取得了最先进的性能，并对软性视觉提示和注意力机制进行了详细分析，为未来的研究方向提供了启示。

Dec, 2023

将预训练的视觉语言基础模型应用于医学图像领域

本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中，通过研究 Stable Diffusion 模型的子组件，进而生成医学影像，并通过定量和定性的方法对模型效果进行评估。

Oct, 2022

面向医学图像的通用异常检测的视觉语言模型的适应

本文介绍了一种用于医学异常检测的轻量级多层次自适应对比框架，通过将多个残差适配器整合到预训练的视觉编码器中，通过多级像素级视觉 - 语言特征对齐损失函数引导多级适应，使其适用于医学图像。实验结果表明，我们的方法在医学异常检测基准上显著超越了当前最先进的模型，在零样本和少样本情况下分别实现了 6.24% 和 7.33% 的平均 AUC 提升用于异常分类，以及 2.03% 和 2.37% 的平均 AUC 提升用于异常分割。

Mar, 2024

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能，整体准确率为 87.5%，并在另一个 MedVQA 数据集 VQA-RAD 上展现了强大的性能，整体准确率为 73.2%。

Apr, 2024

基于大型语言模型的高效少样本临床任务适应

通过部分冻结的简单微调变体和上下文化标签，提出了一种在有限样本大小下超越传统微调方法的方法，从而显著提高了医学图像的语义嵌入区分度，使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。

Dec, 2023

强化视觉 - 语言基础模型：关键语义知识强调的报告优化

通过提出强调关键语义知识的报告细化方法，本文开发了一种新颖的迭代式视觉 - 语言表示学习框架，从而对原始放射学报告进行细化，突出显示关键信息，并逐渐提取对细粒度分析任务至关重要的关键信息，从而验证了该框架在各种下游医学图像分析任务中的有效性，并展示了其在不同临床应用中的鼓舞人心的潜力。

Jan, 2024

基于知识的视觉语言模型调整策略：为住院医生培训构建筛查乳腺 X 线照片的独特案例集

本研究介绍了一种旨在将可见语言模型（VLM）巧妙地应用于医学领域的框架，采用选择性采样和难负样本挖掘技术以提升检索任务的性能。在两个不同的 VLM（MedCLIP 和 ALBEF）上实施我们的方法，并使用包含乳房 X 光和其相应报告的两个大型数据集来验证其有效性。通过我们的方法，在图像文本检索任务的 Recall@K 性能方面观察到显著的改善。

May, 2024

基于疾病信息的视觉 - 语言模型调整

通过在医学图像分析中引入疾病相关的上下文提示，利用预训练的视觉 - 语言模型（VLMs）的联合能力，提出了一种新的疾病原型学习框架，有效地提升了 VLMs 对新疾病概念的理解和性能，相较于现有方法有明显的提升。

May, 2024

MedKLIP: 医学知识增强的语言 - 图像预训练

该研究论文提出了基于医学图像文本匹配的预训练方法，利用三元组信息和医学专有知识进行医疗分类和定位，取得了比其他方法更好的分类结果。

Jan, 2023