通过观看数百个手术视频讲座学习多模态表示

Jul, 2023

通过观看数百个手术视频讲座学习多模态表示

Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures

Kun Yuan, Vinkle Srivastav, Tong Yu, Joel Lavanchy, Pietro Mascagni...

TL;DR该研究使用手术视频讲座来进行多模态表示学习，通过自动生成的文本转录来解决手术视频中的语言挑战，提出了一种新的对齐视频和文本嵌入的方法 SurgVLP，并介绍了一些用于手术的视觉与语言任务作为评估标准。

Abstract

Recent advancements in surgical computer vision applications have been driven by fully-supervised methods, primarily using only visual data. These methods rely on manually annotated surgical videos to predict a fixed set of object categories, limiting their generalizability to unseen s

surgical computer vision multi-modal representation learning surgvlp surgery-specific linguistic challenges vision-and-language tasks

发现论文，激发创造

HecVL：零样本手术阶段识别的分层视频语言预训练

通过使用自然语言实现手术模型的普适性训练，本研究提出了一种名为 HecVL 的新型分层视频 - 文本预训练方法，其中通过构建层次化的视频 - 文本配对数据集，通过剪辑级、阶段级和视频级的文本信息学习了多模态嵌入空间，并使用对比学习的框架进行训练，使模型能够实现零样本手术阶段识别，并且在不同手术程序和医疗中心之间实现了模型的迁移。

May, 2024

无监督对比式视频 - 语音表征学习 —— 超声波应用

本文提出了一种用于医学图像处理的自监督学习方法，该方法可以从多通道超声视频和相应的言语音频数据中学习有意义的图像特征，评价结果表明该方法可以用于标准平面检测和视线预测等向下流任务。

Aug, 2020

外科计算机视觉的启动

通过自我监督学习，在不同手术数据集上进行预训练，从而灵活地利用多样化的手术数据，为各种手术下游任务学习与任务无关的表示，研究发现预训练数据集的组成严重影响自我监督学习方法在各种下游任务上的有效性，对于规模化应用自我监督学习方法应充分考虑预训练数据集的组成。

Dec, 2023

手术 - LVLM：学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答

介绍了 Surgical-LVLM，这是一种专为复杂手术场景定制的个性化大型视觉 - 语言模型，通过引入 VP-LoRA 模块和 TIT 模块，能够在手术背景下理解复杂的视觉 - 语言任务，并在多个基准测试中展现了出色的性能，为自动化手术辅导领域做出了贡献。

Mar, 2024

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

视觉问答机器人手术中采用共同关注门控视觉语言嵌入的本地化回答

本研究提出了一种基于端到端 Transformer 与协同注意力门控视觉 - 语言嵌入的外科手术场景中可定位答案的视觉问答系统，该方法不需要通过检测模型进行特征提取，并建立在数据高效图像 Transformer 模块、并行分类器和检测器之上，该方法在公共手术视频实验上的结果表明了与现有技术的优越性。

Jul, 2023

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答

本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统，使用门控视觉语言嵌入（GVLE）和语言视觉变压器（LViT）来进行异构模态的融合和回答的预测，GVLE 在实现语言 - 视觉嵌入方面表现出优异的性能，并与现有基准相比速度更快，并通过添加检测头来实现本地化的回答预测。

May, 2023

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021

微创手术视觉的多任务学习综述

通过分析 MIS 视频，综述了当前 MTL 系统在 MIS 中的应用，讨论了这些系统的优势和局限性，并对 MTL 在 MIS 的各个应用领域进行了文献分析，包括大模型，突出了显著趋势、新的研究方向和发展。

Jan, 2024