May, 2024

PitVQA: 基于图像引导的文本嵌入LLM用于垂体手术的视觉问答

TL;DR本文提出了PitVQA和PitVQA-Net,通过图像和文本信息的联合嵌入和上下文表示,解决了对内窥镜垂体手术领域中复杂的问答任务的挑战,并在PitVQA和EndoVis18-VQA数据集上取得了显著性能改进。