利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

May, 2021

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training

Jong Hak Moon, Hyungyung Lee, Woncheol Shin, Young-Hak Kim, Edward Choi

TL;DR本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

Abstract

Recently a number of studies demonstrated impressive performance on diverse vision-language multi-modal tasks such as image captioning and visual question answering by extending the bert architecture with multi-modal pre-training objectives. In this work we explore a broad set of

multi-modal representation bert radiology images medical report generalization performance

发现论文，激发创造

医学视觉语言理解和生成的多模型预训练：新基准的实证研究

通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions)，本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析，得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。

Jun, 2023

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练，用于医学视觉问答

本文提出了一种新的自我监督方法来处理医学图像视觉问答问题，通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示，预训练模型后将其转移到下游的医学 VQA 任务中，已在三个公开的医学 VQA 数据集上取得了最先进的表现，具有显着的准确度提高。

Jul, 2023

利用文本语义改进生物医学视觉 - 语言处理

本文介绍了一种基于语义模型的对比学习方法，该方法在生物医学领域的文本 - 语言建模中取得了目前最先进的结果，利用该方法可以更好地理解医学图像和报告。

Apr, 2022

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

医学视觉语言预训练用于脑部异常

本研究旨在展示如何从公共资源如 PubMed 中自动收集医学图像与文本对齐数据，构建用于具体医学任务的高性能视觉语言模型，并解决医学领域中子图到子标题的映射问题。

Apr, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能，整体准确率为 87.5%，并在另一个 MedVQA 数据集 VQA-RAD 上展现了强大的性能，整体准确率为 73.2%。

Apr, 2024

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了 LLama3-Med 模型，在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能，相比于以前的方法，平均性能提高超过 10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

利用时间结构进行生物医学视觉语言处理的学习

本文提出一种名为 BioViL-T 的方法，使用了了同时训练和微调过程中的先前图像和报告，通过 CNN-Transformer 混合多图像编码器与文本模型协同训练，获得了最先进的性能，在单图像和多图像设置下实现了进展分类，短语接地和报告生成，并在疾病分类和句子相似性任务上持续提供改进，并使用一个新的多模态时间基准数据集 MS-CXR-T 表征了视觉语言表示的优劣。

Jan, 2023