BriefGPT.xyz
大模型
Ask
alpha
关键词
surgical vqa
搜索结果 - 2
PitVQA: 基于图像引导的文本嵌入 LLM 用于垂体手术的视觉问答
本文提出了 PitVQA 和 PitVQA-Net,通过图像和文本信息的联合嵌入和上下文表示,解决了对内窥镜垂体手术领域中复杂的问答任务的挑战,并在 PitVQA 和 EndoVis18-VQA 数据集上取得了显著性能改进。
PDF
a month ago
利用场景图知识推进手术视觉问答
通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战,我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net,展示了通过将几何场景特征融入 VQA 模型设计
→
PDF
7 months ago
Prev
Next