MEDVQA-GI 2023 中 UIST-Saviors: 基于图像增强的胃肠道可视化问题回答的多模态学习改进

Jul, 2023

MEDVQA-GI 2023 中 UIST-Saviors: 基于图像增强的胃肠道可视化问题回答的多模态学习改进

UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering

PDF

Triet M. Thai, Anh T. Vo, Hao K. Tieu, Linh N.P. Bui, Thien T.B. Nguyen

TL;DR结合计算机视觉和自然语言处理，提出了一种多模态学习方法来改善胃肠道图像上的视觉问答性能，通过 BERT 编码器和基于卷积神经网络（CNN）和 Transformer 架构的不同预训练视觉模型从问题和内窥镜图像中提取特征，结果显示 Transformer-based 视觉模型在 CNN 上具有优势，并展示了图像增强过程的有效性。

Abstract

In recent years, artificial intelligence has played an important role in medicine and disease diagnosis, with many applications to be mentioned, one of which is medical visual question answering (→

artificial intelligence medical visual question answering medvqa gastrointestinal images image enhancement

发现论文，激发创造

Surgical-VQA: 使用 Transformer 解决手术场景中的视觉问答问题

我们设计了一个基于医学图像的手术问答系统，使用视觉和文本转换模型，并通过两个 Surgical-VQA 数据集验证了所提出的方法，结合分类和基于句子的答案以回答关于手术程序的问卷调查。

Jun, 2022

MediFact 参加 MEDIQA-M3G 2024：多模态学习在皮肤科医学问答中的应用

本研究提出了一种弱监督学习方法，通过使用 MEDIQA-M3G 图像的 VGG16-CNN-SVM 模型，并通过多模态融合将视觉和文本信息联系起来，解决了传统方法在开放式医疗问答中的局限性，进一步促进了医学问答研究的发展，为临床决策支持系统的构建提供了新的思路，进而提高了医疗保健的服务水平。

Apr, 2024

根据要求进行设计：利用视觉问答进行多模态预训练

我们利用多模态预训练中的视觉问题回答（VQA）指导框架，聚焦目标病理特征，通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对，并提出了一种基于准文本特征变换的新型预训练框架，将视觉特征转化为接近文本领域的准文本空间，缩小了视觉 - 语言差距，实现了模态对齐。在四个下游任务（报告生成、分类、分割和检测）的五个数据集上，广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。

Mar, 2024

利用联合自监督学习的医学视觉问答

本研究提出一种编码器 - 解码器框架，利用自注意机制跨图像文本双模态表示，并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练，并在小规模医学 VQA 数据集上进行微调，取得了比基线和 SOTA 方法更好的性能。

Feb, 2023

医学领域的视觉问答

通过使用领域特定的预训练策略，包括一种新颖的对比学习预训练方法，解决医学视觉问答任务中数据集规模小的问题，我们的模型在 VQA-Med 2019 测试集上达到了 60% 的准确率，与其他最先进的 Med-VQA 模型具有可比性。

Sep, 2023

Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答

本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统，使用门控视觉语言嵌入（GVLE）和语言视觉变压器（LViT）来进行异构模态的融合和回答的预测，GVLE 在实现语言 - 视觉嵌入方面表现出优异的性能，并与现有基准相比速度更快，并通过添加检测头来实现本地化的回答预测。

May, 2023

医学视觉问答的自监督视觉语言预训练

本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法，应用于医学图像字幕数据集的预训练，并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。

Nov, 2022

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架（MISS），将医学 VQA 作为生成任务，并通过多任务学习对齐图像 - 文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于 VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。

Jan, 2024

视觉问答机器人手术中采用共同关注门控视觉语言嵌入的本地化回答

本研究提出了一种基于端到端 Transformer 与协同注意力门控视觉 - 语言嵌入的外科手术场景中可定位答案的视觉问答系统，该方法不需要通过检测模型进行特征提取，并建立在数据高效图像 Transformer 模块、并行分类器和检测器之上，该方法在公共手术视频实验上的结果表明了与现有技术的优越性。

Jul, 2023

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023