May, 2024

PitVQA: 基于图像引导的文本嵌入 LLM 用于垂体手术的视觉问答

TL;DR本文提出了 PitVQA 和 PitVQA-Net,通过图像和文本信息的联合嵌入和上下文表示,解决了对内窥镜垂体手术领域中复杂的问答任务的挑战,并在 PitVQA 和 EndoVis18-VQA 数据集上取得了显著性能改进。