PitVQA: 基于图像引导的文本嵌入 LLM 用于垂体手术的视觉问答
介绍了 Surgical-LVLM,这是一种专为复杂手术场景定制的个性化大型视觉 - 语言模型,通过引入 VP-LoRA 模块和 TIT 模块,能够在手术背景下理解复杂的视觉 - 语言任务,并在多个基准测试中展现了出色的性能,为自动化手术辅导领域做出了贡献。
Mar, 2024
本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统,使用门控视觉语言嵌入(GVLE)和语言视觉变压器(LViT)来进行异构模态的融合和回答的预测,GVLE 在实现语言 - 视觉嵌入方面表现出优异的性能,并与现有基准相比速度更快,并通过添加检测头来实现本地化的回答预测。
May, 2023
本文介绍了一种可伸缩的 Language-Vision GPT(LV-GPT)模型,它将 GPT2 模型扩展到包括视觉输入(图像),以改进机器人手术中的视觉问题回答(VQA)任务,该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。
Apr, 2023
本研究提出了一种基于端到端 Transformer 与协同注意力门控视觉 - 语言嵌入的外科手术场景中可定位答案的视觉问答系统,该方法不需要通过检测模型进行特征提取,并建立在数据高效图像 Transformer 模块、并行分类器和检测器之上,该方法在公共手术视频实验上的结果表明了与现有技术的优越性。
Jul, 2023
我们设计了一个基于医学图像的手术问答系统,使用视觉和文本转换模型,并通过两个 Surgical-VQA 数据集验证了所提出的方法,结合分类和基于句子的答案以回答关于手术程序的问卷调查。
Jun, 2022
本研究提出一种编码器 - 解码器框架,利用自注意机制跨图像文本双模态表示,并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练,并在小规模医学 VQA 数据集上进行微调,取得了比基线和 SOTA 方法更好的性能。
Feb, 2023
通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战,我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net,展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。
Dec, 2023
通过结合预训练大型语言模型和其他基础模型,本研究探索了一种无需进一步训练即可解决视觉问答问题的方法,并对不同的解码策略在 VQAv2 数据集上进行了性能评估。
Sep, 2023
本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架(MISS),将医学 VQA 作为生成任务,并通过多任务学习对齐图像 - 文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得传统医学视觉领域任务数据能够应用于 VLP,实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。
Jan, 2024
我们提出了 HawkEye,这是第一个完全以文本形式进行时间视频定位的视频 - 文本 LLM,并构建了 InternVid-G,这是一个具有分段级字幕和负跨度的大规模视频 - 文本语料库,我们引入了两个新的时间感知型训练目标,以及一种粗粒度的视频片段表示方法,这使得 HawkEye 在时间视频定位方面表现更好,同时在其他视频 - 文本任务上与现有视频 - 文本 LLM 相当,验证了其卓越的视频 - 文本多模态理解能力。
Mar, 2024