VidLPRO：针对机器人和腹腔镜手术的视频语言预训练框架

Sep, 2024

VidLPRO：针对机器人和腹腔镜手术的视频语言预训练框架

VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery

HTML

PDF

Mohammadmahdi Honarmand, Muhammad Abdullah Jamal, Omid Mohareri

TL;DR本文提出了VidLPRO，一个专为机器人和腹腔镜手术设计的视频语言预训练框架，旨在填补现有模型对复杂时间动态的捕捉和视频与语言对齐的不足。通过结合视频文本对比学习、视频文本匹配和掩码语言建模目标，VidLPRO在零-shot手术阶段识别中实现了领先的性能，相较于现有模型提高了最多21.5％的准确率和15.7％的F1分数，具有重要的应用潜力。

Abstract

We introduce VidLPRO, a novel Video-Language (VL) Pre-training Framework designed specifically for robotic and Laparoscopic Surgery. While

发现论文，激发创造

Surgical-VQA: 使用Transformer解决手术场景中的视觉问答问题

我们设计了一个基于医学图像的手术问答系统，使用视觉和文本转换模型，并通过两个Surgical-VQA数据集验证了所提出的方法，结合分类和基于句子的答案以回答关于手术程序的问卷调查。

Jun, 2022

Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答

本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统，使用门控视觉语言嵌入（GVLE）和语言视觉变压器（LViT）来进行异构模态的融合和回答的预测，GVLE在实现语言-视觉嵌入方面表现出优异的性能，并与现有基准相比速度更快，并通过添加检测头来实现本地化的回答预测。

May, 2023

视觉问答机器人手术中采用共同关注门控视觉语言嵌入的本地化回答

本研究提出了一种基于端到端Transformer与协同注意力门控视觉-语言嵌入的外科手术场景中可定位答案的视觉问答系统，该方法不需要通过检测模型进行特征提取，并建立在数据高效图像Transformer模块、并行分类器和检测器之上，该方法在公共手术视频实验上的结果表明了与现有技术的优越性。

Jul, 2023

通过观看数百个手术视频讲座学习多模态表示

该研究使用手术视频讲座来进行多模态表示学习，通过自动生成的文本转录来解决手术视频中的语言挑战，提出了一种新的对齐视频和文本嵌入的方法 SurgVLP，并介绍了一些用于手术的视觉与语言任务作为评估标准。

Jul, 2023

HecVL：零样本手术阶段识别的分层视频语言预训练

通过使用自然语言实现手术模型的普适性训练，本研究提出了一种名为HecVL的新型分层视频-文本预训练方法，其中通过构建层次化的视频-文本配对数据集，通过剪辑级、阶段级和视频级的文本信息学习了多模态嵌入空间，并使用对比学习的框架进行训练，使模型能够实现零样本手术阶段识别，并且在不同手术程序和医疗中心之间实现了模型的迁移。

May, 2024

手术-LVLM：学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答

介绍了Surgical-LVLM，这是一种专为复杂手术场景定制的个性化大型视觉-语言模型，通过引入VP-LoRA模块和TIT模块，能够在手术背景下理解复杂的视觉-语言任务，并在多个基准测试中展现了出色的性能，为自动化手术辅导领域做出了贡献。

Mar, 2024

逐步思考：机器人手术视频中错误检测的连续手势提示

本论文提出了一种新颖的实时端到端错误检测框架，称为Chain-of-Thought (COG) prompting，利用手术视频中的上下文信息来提高机器人辅助微创手术的安全性和效果。通过使用transformer、attention和多阶段时序卷积网络等方法，该方法在公共基准 RMIS 数据集 JIGSAWS 上优于目前最先进方法的F1分数、准确率和Jaccard指数，并且平均每帧处理时间为6.69毫秒。

Jun, 2024

外科VQLA++：用于机器人手术的对抗性对比学习的标定鲁棒视觉问题定位回答

本研究针对外科视觉问答（VQA）模型无法准确指示与特定问题相关的视觉区域的问题，提出了外科视觉问题定位回答（VQLA）方法，以实现对外科图像的精确和上下文相关的响应。通过引入校准共注意力门控视觉-语言（C²G-ViL）嵌入以及对抗样本对比学习策略，显著提升了模型的鲁棒性和性能，为外科教育、病人护理和外科结果的改善提供了有效工具。

Aug, 2024

LLaVA-Surg：通过结构化外科视频学习迈向多模态外科助手

本研究针对现有外科视频缺乏理解与对话能力的问题，提出了一个新颖的解决方案。通过构建包含102,000个外科视频-指令对的新数据集Surg-QA，并采用两阶段问答生成管道，显著提高了外科视频的多模态对话能力。研究成果表明，LLaVA-Surg在开放式外科视频问答任务中，性能明显超越之前的模型，显示出卓越的多模态对话能力。

Aug, 2024

VidLPRO：一种用于机器人和腹腔镜手术的视频语言预训练框架

本研究针对现有外科手术视频语言模型的不足，提出了一种名为VidLPRO的新型视频语言预训练框架，旨在更全面地捕捉视频与语言之间的复杂时间动态。该框架通过结合视频文本对比学习、视频文本匹配和掩蔽语言建模等目标，取得了在零-shot外科阶段识别中的领先表现，显著超越了现有模型，展示了其作为外科视频理解基础模型的潜力。

Sep, 2024