Jul, 2023

MEDVQA-GI 2023 中 UIST-Saviors: 基于图像增强的胃肠道可视化问题回答的多模态学习改进

TL;DR结合计算机视觉和自然语言处理,提出了一种多模态学习方法来改善胃肠道图像上的视觉问答性能,通过 BERT 编码器和基于卷积神经网络(CNN)和 Transformer 架构的不同预训练视觉模型从问题和内窥镜图像中提取特征,结果显示 Transformer-based 视觉模型在 CNN 上具有优势,并展示了图像增强过程的有效性。