基于深度学习的手术任务视频形成性和总结性评估

Mar, 2022

基于深度学习的手术任务视频形成性和总结性评估

Video-based Formative and Summative Assessment of Surgical Tasks using Deep Learning

Erim Yanik, Uwe Kruger, Xavier Intes, Rahul Rahul, Suvranu De

TL;DR使用基于视频的评估和深度学习模型，生成热力图进行形式评估，并给出高风险总结性评估，使外科手术技能训练成果定量化和可复制化。

Abstract

To ensure satisfactory clinical outcomes, surgical skill assessment must be objective, time-efficient, and preferentially automated - none of which is currently achievable. video-based assessment (VBA) is being d

surgical skill assessment video-based assessment deep learning formative assessment visual features

发现论文，激发创造

使用 3D 卷积神经网络进行基于视频的外科技能评估

本研究使用深度学习方法，基于视频数据进行自动技能评估，结果表明使用 3D ConvNet 直接从数据中学习有意义的模式可以高效评估外科技术技能，使得人工特征工程不再是必须的。

Mar, 2019

卷积神经网络在机器人辅助手术中客观技能评估中的深度学习

通过深度学习框架从机器人运动数据映射到单个技能级别，提出了一种无需特征工程或精心调整手势细分，即可成功解码技能信息的模型，并能在 1-3 秒窗口内可靠地解释技能，突出了深度架构在现代外科培训中高效在线技能评估的潜力。

Jun, 2018

基于区域卷积神经网络的手术视频工具检测和操作技能评估

该研究利用基于卷积神经网络的区域分析法跟踪和分析手术视频中的工具移动，从而自动评估外科医生的手术技能，在空间定位工具的同时，分析手术工具使用模式、运动范围和运动经济性等方面对手术质量进行评估。

Feb, 2018

通过观看数百个手术视频讲座学习多模态表示

该研究使用手术视频讲座来进行多模态表示学习，通过自动生成的文本转录来解决手术视频中的语言挑战，提出了一种新的对齐视频和文本嵌入的方法 SurgVLP，并介绍了一些用于手术的视觉与语言任务作为评估标准。

Jul, 2023

Surgical-VQA: 使用 Transformer 解决手术场景中的视觉问答问题

我们设计了一个基于医学图像的手术问答系统，使用视觉和文本转换模型，并通过两个 Surgical-VQA 数据集验证了所提出的方法，结合分类和基于句子的答案以回答关于手术程序的问卷调查。

Jun, 2022

向统一的外科技能评估迈进

提出了一种统一的多路径框架，用于通过手术视频自动预测手术的成功程度，该框架考虑了手术技能的多个组成方面，包括手术工具使用、术中事件模式和其他技能代理，并通过路径依赖模块特别建模这些不同方面之间的依赖关系。在模拟手术任务的 JIGSAWS 数据集和新的真实腹腔镜手术的临床数据集上进行了大量实验，提出的框架在两个数据集上均取得了良好的成果，模拟数据集的最先进水平从 0.71 Spearman 相关性提高到了 0.80，同时还表明结合多个技能方面比依赖单个方面获得更好的性能。

Jun, 2021

使用卷积神经网络从运动数据评估外科技能

本文通过设计一种卷积神经网络 (CNN) 来自动评估机器人手术中的外科医生技能，经过我们提出的方法在 JIGSAWS 数据集上得到了非常有竞争力的结果，并通过类激活图来解释各分类并提供个性化反馈

Jun, 2018

基于 HMM 稳定化深度学习的高效手术工具识别

经过探索性数据分析，我们发现手术视频具有相对简单的语义结构，我们提出了一种基于隐马尔可夫模型（HMM）的深度学习方法，用于工具存在性检测，结果表明，与复杂模型结构的流行深度学习方法相比，我们的方法在性能、训练和运行成本以及数据利用方面都更优，智能地将深度学习和统计学相结合可能会导致更强大的算法，同时享有竞争性能、透明解释和便捷的模型训练方式。

Apr, 2024

VS 助手：满足外科医生需求的多功能手术助手

通过利用高级多模态大型语言模型，我们提出了一种具有智能和多功能的手术助理（VS-Assistant），可以准确理解外科医生的意图，并完成一系列手术理解任务，例如手术场景分析、手术器械检测和需求分割。

May, 2024

Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答

本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统，使用门控视觉语言嵌入（GVLE）和语言视觉变压器（LViT）来进行异构模态的融合和回答的预测，GVLE 在实现语言 - 视觉嵌入方面表现出优异的性能，并与现有基准相比速度更快，并通过添加检测头来实现本地化的回答预测。

May, 2023