针对医学报告生成的通用基础模型的定制

Jun, 2023

针对医学报告生成的通用基础模型的定制

Customizing General-Purpose Foundation Models for Medical Report Generation

Bang Yang, Asif Raza, Yuexian Zou, Tong Zhang

TL;DR该研究提出了将通用的预训练神经网络模型应用于医学报告生成的方法，并表明对图像的特定编码和一定的参数训练是实现最优结果的关键。

Abstract

medical caption prediction which can be regarded as a task of medical report generation (MRG), requires the automatic generation of coherent and accurate captions for the given medical images. However, the scarcity of labelled medical image-report pairs presents great challenges in the

medical caption prediction medical report generation neural networks transfer learning imageclefmedical caption

发现论文，激发创造

在视觉 - 语言基础模型中改进医疗报告生成的适配器调优与知识增强

医疗报告生成需要自动创建连贯准确的医学图像描述。本研究基于最先进的视觉语言预训练和微调方法 BLIP-2，利用适配器调优和医学知识增强损失，显著提高了模型的准确性和连贯性。在 ImageCLEFmedical 2023 的数据集上验证，我们的模型取得了最佳的平均结果，优于几种最先进的方法。ROUGE 和 CIDEr 的显著改进突显了我们方法的有效性，为快速适应视觉语言基础模型以应对数据匮乏的挑战带来了有希望的结果。

Dec, 2023

将预训练的视觉语言基础模型应用于医学图像领域

本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中，通过研究 Stable Diffusion 模型的子组件，进而生成医学影像，并通过定量和定性的方法对模型效果进行评估。

Oct, 2022

有效微调以提升大型多模态放射学报告生成模型

利用生成性人工智能进行医学图像的放射学报告撰写可极大地减少了时间成本和错误率。本研究中，我们提出了一个简单而有效的两阶段微调方案，通过软性视觉提示将视觉特征与大型语言模型的文本嵌入空间对齐。我们的框架在没有领域特定预训练的情况下取得了最先进的性能，并对软性视觉提示和注意力机制进行了详细分析，为未来的研究方向提供了启示。

Dec, 2023

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

基于大型语言模型的高效少样本临床任务适应

通过部分冻结的简单微调变体和上下文化标签，提出了一种在有限样本大小下超越传统微调方法的方法，从而显著提高了医学图像的语义嵌入区分度，使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。

Dec, 2023

医学视觉语言理解和生成的多模型预训练：新基准的实证研究

通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions)，本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析，得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。

Jun, 2023

医学基础模型综述

基于自我监督方法使用大规模数据集训练的基础模型（FMs）被广泛应用于各个领域，包括医疗保健领域，特别在自然语言处理、医学图像分析、临床大型语言模型和病理组学数据等方面。该综述论文全面概述了 FMs 在医疗保健领域的历史、学习策略、旗舰模型、应用和挑战，并提供了详细的医疗应用分类，同时讨论了 FMs 所面临的挑战和未来研究方向。

Jun, 2024

临床基础建模的不稳定基础：大型语言模型和 EMR 基础建模调查

本文回顾了 80 多个非成像电子医疗记录基础模型并创建了一个分类法以区分它们的结构、训练数据和潜在用例。作者们发现，大多数模型是在小型、局限性临床数据集（例如 MIMIC-III）或广泛的公共生物医学语料库（例如 PubMed）上进行训练的，并且评估任务不能提供对其对医疗系统有用性的有意义见解。基于这些发现，作者提出了一个更加贴近医疗保健重要指标的评估框架，用于衡量临床基础模型的好处。

Mar, 2023

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023