根据要求进行设计：利用视觉问答进行多模态预训练

Mar, 2024

根据要求进行设计：利用视觉问答进行多模态预训练

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training

Tongkun Su, Jun Li, Xi Zhang, Haibo Jin, Hao Chen...

TL;DR我们利用多模态预训练中的视觉问题回答（VQA）指导框架，聚焦目标病理特征，通过医学报告中的描述设计了关联不同疾病的多粒度问题-答案对，并提出了一种基于准文本特征变换的新型预训练框架，将视觉特征转化为接近文本领域的准文本空间，缩小了视觉-语言差距，实现了模态对齐。在四个下游任务（报告生成、分类、分割和检测）的五个数据集上，广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。

Abstract

multimodal pre-training demonstrates its potential in the medical domain, which learns medical visual representations from paired medical reports. However, many pre-training tasks require extra annotations from c

发现论文，激发创造

CLIP在医学领域是否像在通用领域一样有益于视觉问答？

本研究探究了 CLIP 在医学领域中应用的效果，并试图通过针对性的PubMedCLIP模型，与基于MAML模型和CLIP模型的医学视觉问答进行比较，证明通过语言监督的视觉表示学习能够显著提升MedVQA中的表现。

Dec, 2021

使用多模态预训练的检索增强型生物医学视觉问答系统RAMM

本文介绍了一种针对生物医学问题的图像和文字的多模态预训练和微调方法，该方法使用检索增强来克服数据限制问题，并收集了一个名为PMCPM的新生物医学数据集，实现了目前最先进的性能。

Mar, 2023

PMC-VQA：基于视觉指导的医学视觉问答模型优化

本研究旨在通过提出一种基于生成的模型方法（与大型自然语言模型结合）来解决医学图像中的问题，通过建立大规模的医疗视觉问答数据集，即PMC-VQA，该数据集包含149k张图片的227k个问答对，并进行预处理和微调以超越现有研究成果。

May, 2023

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练，用于医学视觉问答

本文提出了一种新的自我监督方法来处理医学图像视觉问答问题，通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示，预训练模型后将其转移到下游的医学VQA任务中，已在三个公开的医学VQA数据集上取得了最先进的表现，具有显着的准确度提高。

Jul, 2023

医学领域的视觉问答

通过使用领域特定的预训练策略，包括一种新颖的对比学习预训练方法，解决医学视觉问答任务中数据集规模小的问题，我们的模型在VQA-Med 2019测试集上达到了60%的准确率，与其他最先进的Med-VQA模型具有可比性。

Sep, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架（MISS），将医学VQA作为生成任务，并通过多任务学习对齐图像-文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。

Jan, 2024

医疗报告生成和视觉问答的视觉语言模型综述

医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Mar, 2024

MedThink：通过多模态决策理由解释医学视觉问题回答

通过设计半自动注释过程，构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准MedVQA数据集R-RAD和R-SLAKE，并将其纳入训练过程中，通过三种不同的策略生成决策结果和相应的理由，从而清楚地展示推理过程中的医疗决策过程，实验证明该方法在R-RAD上能达到83.5%的准确率，在R-SLAKE上能达到86.3%的准确率，显著优于现有最先进的基线模型。

Apr, 2024

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能，整体准确率为87.5%，并在另一个MedVQA数据集VQA-RAD上展现了强大的性能，整体准确率为73.2%。

Apr, 2024

面向医疗视觉问答的定向视觉提示

本研究解决了医疗视觉问答（Med-VQA）中模型视觉理解能力不足的问题，提出了定向视觉提示的新方法，以提升多模态大型语言模型（MLLMs）在区域性问题上的表现。研究发现，结合孤立区域与上下文区域的定制视觉提示能够显著增强模型的视觉理解能力，展示了该方法在多个数据集上的有效性。

Aug, 2024