CLIP 和 LLM 在医疗中的多模态问题摘要

AAAIDec, 2023

CLIP 和 LLM 在医疗中的多模态问题摘要

CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization in Healthcare

Akash Ghosh, Arkadeep Acharya, Raghav Jain, Sriparna Saha, Aman Chadha...

TL;DR在现代医疗时代，迅速生成医疗问题摘要对知情和及时的患者护理至关重要。本文介绍了多模态医疗问题摘要（MMQS）数据集，该数据集将医疗查询与图像辅助相结合，便于更丰富、更细致地理解患者需求。我们提出了一个基于 Contrastive Language Image Pretraining (CLIP) 和 Large Language Models (LLMs) 的框架，包括四个模块，用于识别医疗障碍、生成相关上下文、过滤医疗概念和制作具有视觉感知的摘要。通过利用我们的 MMQS 数据集，展示了图像视觉线索如何增强医学细致摘要的生成。这种多模态方法不仅提升了医疗决策过程，还促进了对患者查询的更细致理解，为个性化和响应式医疗护理的未来研究奠定了基础。

Abstract

In the era of modern healthcare, swiftly generating medical question summaries is crucial for informed and timely patient care. Despite the increasing complexity and volume of medical data, existing studies have focused solely on text-based summarization, neglecting the integration of visual information. Recognizing the untapped potential of combining textua

medical question summaries multimodal visual aids contrastive language image pretraining large language models

发现论文，激发创造

MedSumm: 一种多模态方法来对混编印地语 - 英语临床查询进行摘要

在医疗卫生领域，对患者所提出的医学问题进行概括对于改善医患交流及医疗决策至关重要。然而，当前该领域的研究主要集中在基于文本的方法上，忽视了视觉线索的整合。这项工作在资源匮乏的环境中引入了多模态医学问题概括的任务，针对印度 - 英语代码混合的医学查询，结合了视觉辅助信息。该整合丰富了患者医疗状况的表达，提供了更全面的视角。我们还提出了一个名为 MedSumm 的框架，利用语言模型和视觉模型的力量来完成这项任务。通过使用我们的 MMCQS 数据集，我们展示了利用图像中的视觉信息来改进医学详细摘要的价值。这种多模态策略不仅改善了医疗决策，还促进了对患者问题的更深入理解，为个性化和响应式医疗护理的未来探索铺平了道路。我们的数据集、代码和预训练模型将会公开提供。

Jan, 2024

CLIP 在医学领域是否像在通用领域一样有益于视觉问答？

本研究探究了 CLIP 在医学领域中应用的效果，并试图通过针对性的 PubMedCLIP 模型，与基于 MAML 模型和 CLIP 模型的医学视觉问答进行比较，证明通过语言监督的视觉表示学习能够显著提升 MedVQA 中的表现。

Dec, 2021

卓越总结者的眼睛是经验和证据！走向融合知识的多模态临床对话总结

通过多模态、多任务的医学领域识别和临床对话摘要生成 (MM-CliConSummation) 框架，本文提出了一种知识注入的、多模态的、多任务的临床对话摘要生成任务，旨在通过适配器融合知识和视觉特征，并使用门机制统一融合特征向量，将医生 - 患者交互 (包括文本和视觉信息) 生成简明扼要的摘要。在大量的定量和定性实验中，得出了以下结果：(a) 视觉信息的重要性；(b) 更精确且保留医学实体的摘要；(c) 医学部门识别与临床摘要生成之间的相关性。

Sep, 2023

MedCLIP: 对未配对的医学影像和文本进行对比学习

本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP，该框架采用了对抗学习和多模式学习，并引入医学知识语义匹配。实验结果表明，MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是，仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。

Oct, 2022

CLIP 中的语言增强技术对多模态医学图像的改进解剖检测

使用多模态的医学影像，利用视觉语言模型 (CLIP) 自动生成整体身体的标准化分区和器官列表，相较于基线模型 (PubMedCLIP)，提高性能达到 47.6%。

May, 2024

CLIP 的多模态多标签分类

设计一个学习算法来处理图像和文本两个数据源，通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示，最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。

Jun, 2024

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

利用连续提示进行医学影像 - 文本 - 标签联合对比学习

本文提出了一种基于连续提示的统一图像 - 文本 - 标签对比学习框架，从数据统一性，多样性和假阴性样本等方面解决了医学图像对比学习中的的挑战，并在多个下游任务中展现出了出色的表现。

Jul, 2023

WangLab 在 MEDIQA-M3G 2024 中使用大型语言模型进行多模态医学答案生成

这篇论文讨论了我们在 MEDIQA2024 多语言和多模式医学回答生成（M3G）共享任务中的提交情况，报告了在任务的英语类别下两个独立解决方案的结果，第一个解决方案涉及对 Claude 3 Opus API 进行两次连续的 API 调用，第二个解决方案涉及使用 CLIP 进行图像分类的图像疾病标签联合嵌入训练。这两个解决方案在比赛排行榜上分别获得第一和第二名，大大超过了其他解决方案。此外，我们讨论了来自后期竞赛实验的见解。尽管由于共享任务的难度和医学视觉问答的挑战性质，这两个解决方案的性能有很大的提升空间，但我们认为多阶段 LLM 方法和 CLIP 图像分类方法有进一步研究的潜力。

Apr, 2024

优化医学多模态对比学习：专家批注

eCLIP 是 CLIP 模型的增强版本，通过整合放射科医师眼动热图的专家注释，解决对比性多模式医学图像分析中的关键挑战，特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强，提高模型的学习效果。通过多个任务的详细评估，包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成（RAG）放射学报告，eCLIP 展示了嵌入质量的持续改进，揭示了增强的对齐性和一致性，证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。

Mar, 2024