Jul, 2023

通过观看数百个手术视频讲座学习多模态表示

TL;DR该研究使用手术视频讲座来进行多模态表示学习,通过自动生成的文本转录来解决手术视频中的语言挑战,提出了一种新的对齐视频和文本嵌入的方法 SurgVLP,并介绍了一些用于手术的视觉与语言任务作为评估标准。