Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答
本研究提出了一种基于端到端 Transformer 与协同注意力门控视觉 - 语言嵌入的外科手术场景中可定位答案的视觉问答系统,该方法不需要通过检测模型进行特征提取,并建立在数据高效图像 Transformer 模块、并行分类器和检测器之上,该方法在公共手术视频实验上的结果表明了与现有技术的优越性。
Jul, 2023
我们设计了一个基于医学图像的手术问答系统,使用视觉和文本转换模型,并通过两个 Surgical-VQA 数据集验证了所提出的方法,结合分类和基于句子的答案以回答关于手术程序的问卷调查。
Jun, 2022
介绍了 Surgical-LVLM,这是一种专为复杂手术场景定制的个性化大型视觉 - 语言模型,通过引入 VP-LoRA 模块和 TIT 模块,能够在手术背景下理解复杂的视觉 - 语言任务,并在多个基准测试中展现了出色的性能,为自动化手术辅导领域做出了贡献。
Mar, 2024
本文介绍了一种可伸缩的 Language-Vision GPT(LV-GPT)模型,它将 GPT2 模型扩展到包括视觉输入(图像),以改进机器人手术中的视觉问题回答(VQA)任务,该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。
Apr, 2023
本文提出了 PitVQA 和 PitVQA-Net,通过图像和文本信息的联合嵌入和上下文表示,解决了对内窥镜垂体手术领域中复杂的问答任务的挑战,并在 PitVQA 和 EndoVis18-VQA 数据集上取得了显著性能改进。
May, 2024
结合计算机视觉和自然语言处理,提出了一种多模态学习方法来改善胃肠道图像上的视觉问答性能,通过 BERT 编码器和基于卷积神经网络(CNN)和 Transformer 架构的不同预训练视觉模型从问题和内窥镜图像中提取特征,结果显示 Transformer-based 视觉模型在 CNN 上具有优势,并展示了图像增强过程的有效性。
Jul, 2023
通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战,我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net,展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。
Dec, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023
QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。
Feb, 2024
近期视觉语言模型的进展在视觉指导调整后,在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息,训练模型进行自我监督学习以提问高质量问题,引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力,与传统的视觉指导调整方法相比,将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能,突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。
Mar, 2024